如何抓取网页数据(网站日志该分析哪些数据呢?用一个站长的日志基础信息)

优采云 发布时间: 2022-03-24 18:12

  如何抓取网页数据(网站日志该分析哪些数据呢?用一个站长的日志基础信息)

  网站日志中应该分析哪些数据?如何从基本信息、目录抓包、时间段抓包、IP抓包、状态码分析网站日志:

  

  一、如何分析网站日志和基本信息

  下载网站log文件工具获取基本信息:如何分析总爬取量网站log、停留时间(h)和访问次数;通过这三个基本信息,可以计算出:平均每次爬取页数和单个页面的爬取停留时间,然后用MSSQL提取蜘蛛的唯一爬取量,计算重复爬取率爬虫根据以上数据:

  每次爬取的平均页数=总爬取次数/访问次数

  单页抓取停留时间=停留​​时间*3600/总抓取量

  爬虫重复爬取率=100%-唯一爬取量/总爬取量

  如何分析一段时间数据的网站日志,可以看到整体趋势如何,从而发现问题,调整网站的整体策略。我们以一个站长的基本日志信息为例:

  基本日志信息

  从日志的基本信息来看,我们需要看它的整体趋势来调整,哪些地方需要加强,如何分析网站日志。

  网站日志文件应该分析哪些数据

  总爬取

  从这个整体趋势可以看出,爬虫总量整体呈下降趋势,这就需要我们做一些相应的调整。

  网站日志文件应该分析哪些数据

  蜘蛛重复爬行率

  整体来看,网站的重复爬取率增加了一点,这需要一些细节,爬取更多入口,以及一些robots和nofollow技术的使用。

  单边停留时间

  一方面是爬虫的停留时间,看过一篇文章软文,页面加载速度如何影响SEO流量;提高页面的加载速度,减少爬虫在一侧的停留时间,可以用于爬虫的总爬取。有助于增加 网站收录,从而增加 网站 整体流量。16号到20号左右服务器出现了一些问题。调整后速度明显加快,单页停留时间也相应减少。

  并相应调整如下:

  从本月的排序来看,爬虫的爬取量有所下降,重复爬取率有所上升。综合分析,需要从网站内外的链接进行调整。站点中的链接应尽可能有锚文本。如果没有,可以推荐其他页面的超链接,让蜘蛛爬得越深越好。异地链接需要以多种方式发布。目前平台太少。如果深圳新闻网、上国网等网站出现轻微错误,我们的网站将受到严重影响。站外平台要广,发布的链接要多样化。如果不能直接发首页,栏目和文章页面需要加强。目前场外平台太少,

  二、 目录爬取

  使用MSSQL提取爬虫爬取的目录,分析每日目录爬取量。可以清晰的看到各个目录的爬取情况,可以对比之前的优化策略,看看优化是否合理,关键列的优化是否达到预期效果。

  爬虫爬取的目录

  绿色:主要工作栏 *敏*感*词*:抓取不佳 粉色:抓取非常糟糕 深蓝色:需要禁止的栏目

  网站日志文件应该分析哪些数据

  目录总体趋势

  可以看出,整体趋势变化不大,只有两列的爬取变化很大。

  总体而言,爬行次数较少。在主列中,抓取较少的是:xxx,xxx,xxx。总的来说,整个网站的*敏*感*词*口需要扩大,需要外部链接的配合,站点内部需要加强内部链接的建设。对于,爬取较弱的列以增强处理。同时将深蓝色的列写入robots,屏蔽,从网站导入到这些列中,作为nofollow的URL,避免权重只进出。

  在时间段 三、 抓取

  通过excel中的数组函数,提取每日时间段的爬虫爬取量,重点分析每日的爬取情况,可以找到对应的爬取量比较密集的时间段,更新内容有针对性的方式。同时也可以看出爬取不正常。

  网站日志文件应该分析哪些数据

  时间段爬取

  一天中什么时间出现问题,总爬取也是呈下降趋势。

  网站日志文件应该分析哪些数据

  时间段趋势

  通过抓取时间段,我们进行相应的调整:

  从图中的颜色可以看出服务器不是特别稳定,需要加强服务器的稳定性。另外,17、18、19天,有人被攻击、被锁链等,但爬虫正常爬行,可见这些对网站造成了一定的影响!

  四、IP段的抓取

  通过MSSQL提取日志中爬虫的IP,通过excel进行统计。每个IP的每日抓取量也需要看整体。如果IP段没有明显变化,网站提权也不多。可疑的。因为当网站 up 或 down 时,爬虫的IP 段会发生变化。

  网站日志文件应该分析哪些数据

  IP 段捕获

  五、状态码的统计

  在此之前您需要了解,}

  状态码统计 如果一个网站被搜索引擎爬取的次数和频率比较多,更有利于排名,但是如果你的网站的304太多,肯定会降低搜索引擎的爬取频率和次数,让你的 网站 排名落后别人一步。调整:服务器可以清除缓存。状态码统计百度爬虫数据图,密集数据,以上数据都是从这里调用的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线