php抓取网页标签(先来了解什么是百度蜘蛛抓取频次和抓取耗时:解决方法)

优采云 发布时间: 2021-11-01 08:01

  php抓取网页标签(先来了解什么是百度蜘蛛抓取频次和抓取耗时:解决方法)

  为什么百度蜘蛛爬网时间长,有些时间短,这些耗时的数据代表什么?

  那么我们先来了解一下什么是百度蜘蛛抓取频率和抓取时间:

  1、 爬行时间数据:

  显示百度蜘蛛每次抓取网站所花费的时间。根据数据,站长可以了解蜘蛛抓取网站所花费的时间。获取时间越短,网站的访问速度越快。用户体验越好。

  注:爬取耗时数据的更新频率与爬取频率有关,爬取频率高的站点数据更新较快。

  2、 抓取状态统计:

  四种抓取状态码统计:第一种:重定向(301、302等);第二类,未找到(404);第三类,服务器无响应(501、502等);第四类:服务器连接超时,帮助站长更好的理解爬取网站 在蜘蛛中的状态,更好的管理网站。

  注:这里统计的是百度蜘蛛每次爬取行为的状态,与网站中的实际状态页数不能一概而论。

  3、 爬频工具的响应速度:

  使用爬取频率工具调整爬取次数后的有效时间。

  百度蜘蛛爬取时间很长,一般突出以下几点:

  1、快照经常不更新

  2、网站收录少

  3、网站关键词排名低

  4、 造成这种耗时爬行的原因分为以下几类:

  5、网站 是一个新站点。在这种情况下,抓取时间是正常的,一些新网站在一个月内才被百度获得收录。

  6、 蜘蛛爬过站点,但没有爬走站点数据或页面。遇到这种情况,可以查看网站的日志,根据爬虫上报的状态码查询原因。

  7、网站充斥着过多的富媒体文件,网站信息原创的程度不高。这种类型的网站会导致蜘蛛对网站失去兴趣,停止爬取网站。

  解决方案:

  1、提升网站原创度,网站更新频率稳定。

  2、主关键词和副关键词分布合理。不要堆砌关键词

  3、查看网站的日志,根据上报的状态码做出相应的解决方案。

  百度蜘蛛反馈码一般分为以下几种:

  1、200 0 0 页面访问成功,0表示获取成功并带回数据库。这个时候大家可以放心,这个页面已经bd收录了,只是还没有发布。可能会在 bd 更新时发布。

  2、200 0 64 访问了该页面,但未获取它或将其带回数据库。这种原因多是空间不稳定,服务器不稳定。

  3、304 0 0 这个返回码表示蜘蛛访问的页面没有更新,和他之前来的时候一样,所以看到这个不用担心,蜘蛛已经来了,但是你还没有更新,所以他不舍得拿走这个页面。

  4、404 0 0 这个代表404页面,但是有一个很严重的问题。这个返回码告诉我们蜘蛛来到了404页面并把他带走了。

  (资源库)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线