如何抓取网页数据(网站日志该分析哪些数据呢?用一个站长的日志基础信息)

优采云发布时间: 2022-03-24 18:12

　　网站日志中应该分析哪些数据？如何从基本信息、目录抓包、时间段抓包、IP抓包、状态码分析网站日志：

　　一、如何分析网站日志和基本信息

　　下载网站log文件工具获取基本信息：如何分析总爬取量网站log、停留时间（h）和访问次数；通过这三个基本信息，可以计算出：平均每次爬取页数和单个页面的爬取停留时间，然后用MSSQL提取蜘蛛的唯一爬取量，计算重复爬取率爬虫根据以上数据：

　　每次爬取的平均页数=总爬取次数/访问次数

　　单页抓取停留时间=停留时间*3600/总抓取量

　　爬虫重复爬取率=100%-唯一爬取量/总爬取量

　　如何分析一段时间数据的网站日志，可以看到整体趋势如何，从而发现问题，调整网站的整体策略。我们以一个站长的基本日志信息为例：

　　基本日志信息

　　从日志的基本信息来看，我们需要看它的整体趋势来调整，哪些地方需要加强，如何分析网站日志。

　　网站日志文件应该分析哪些数据

　　总爬取

　　从这个整体趋势可以看出，爬虫总量整体呈下降趋势，这就需要我们做一些相应的调整。

　　网站日志文件应该分析哪些数据

　　蜘蛛重复爬行率

　　整体来看，网站的重复爬取率增加了一点，这需要一些细节，爬取更多入口，以及一些robots和nofollow技术的使用。

　　单边停留时间

　　一方面是爬虫的停留时间，看过一篇文章软文，页面加载速度如何影响SEO流量；提高页面的加载速度，减少爬虫在一侧的停留时间，可以用于爬虫的总爬取。有助于增加网站收录，从而增加网站整体流量。16号到20号左右服务器出现了一些问题。调整后速度明显加快，单页停留时间也相应减少。

　　并相应调整如下：

　　从本月的排序来看，爬虫的爬取量有所下降，重复爬取率有所上升。综合分析，需要从网站内外的链接进行调整。站点中的链接应尽可能有锚文本。如果没有，可以推荐其他页面的超链接，让蜘蛛爬得越深越好。异地链接需要以多种方式发布。目前平台太少。如果深圳新闻网、上国网等网站出现轻微错误，我们的网站将受到严重影响。站外平台要广，发布的链接要多样化。如果不能直接发首页，栏目和文章页面需要加强。目前场外平台太少，

　　二、目录爬取

　　使用MSSQL提取爬虫爬取的目录，分析每日目录爬取量。可以清晰的看到各个目录的爬取情况，可以对比之前的优化策略，看看优化是否合理，关键列的优化是否达到预期效果。

　　爬虫爬取的目录

　　绿色：主要工作栏 *敏*感*词*：抓取不佳粉色：抓取非常糟糕深蓝色：需要禁止的栏目

　　网站日志文件应该分析哪些数据

　　目录总体趋势

　　可以看出，整体趋势变化不大，只有两列的爬取变化很大。

　　总体而言，爬行次数较少。在主列中，抓取较少的是：xxx，xxx，xxx。总的来说，整个网站的*敏*感*词*口需要扩大，需要外部链接的配合，站点内部需要加强内部链接的建设。对于，爬取较弱的列以增强处理。同时将深蓝色的列写入robots，屏蔽，从网站导入到这些列中，作为nofollow的URL，避免权重只进出。

　　在时间段三、抓取

　　通过excel中的数组函数，提取每日时间段的爬虫爬取量，重点分析每日的爬取情况，可以找到对应的爬取量比较密集的时间段，更新内容有针对性的方式。同时也可以看出爬取不正常。

　　网站日志文件应该分析哪些数据

　　时间段爬取

　　一天中什么时间出现问题，总爬取也是呈下降趋势。

　　网站日志文件应该分析哪些数据

　　时间段趋势

　　通过抓取时间段，我们进行相应的调整：

　　从图中的颜色可以看出服务器不是特别稳定，需要加强服务器的稳定性。另外，17、18、19天，有人被攻击、被锁链等，但爬虫正常爬行，可见这些对网站造成了一定的影响！

　　四、IP段的抓取

　　通过MSSQL提取日志中爬虫的IP，通过excel进行统计。每个IP的每日抓取量也需要看整体。如果IP段没有明显变化，网站提权也不多。可疑的。因为当网站 up 或 down 时，爬虫的IP 段会发生变化。

　　网站日志文件应该分析哪些数据

　　IP 段捕获

　　五、状态码的统计

　　在此之前您需要了解，}

　　状态码统计如果一个网站被搜索引擎爬取的次数和频率比较多，更有利于排名，但是如果你的网站的304太多，肯定会降低搜索引擎的爬取频率和次数，让你的网站排名落后别人一步。调整：服务器可以清除缓存。状态码统计百度爬虫数据图，密集数据，以上数据都是从这里调用的

0

2022-03-24

如何抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何抓取网页数据(网站日志该分析哪些数据呢?用一个站长的日志基础信息)

0 个评论

发起人

AI时代内容工厂

如何抓取网页数据(网站日志该分析哪些数据呢?用一个站长的日志基础信息)

0 个评论

发起人

相关问题