http协议中关于http返回码的含义的定义进行设置

优采云 发布时间: 2021-08-23 03:22

  http协议中关于http返回码的含义的定义进行设置

  百度爬虫在抓取和处理的时候,会根据http协议规范设置相应的逻辑,所以站长也应该尽量参考http协议中返回码含义的定义来设置。

  百度蜘蛛对常用http返回码的处理逻辑如下:

  404 返回码的含义是“未找到”。百度会认为该网页无效,因此通常会从搜索结果中删除,并且蜘蛛如果在短期内再次找到该网址,则不会抓取该网址。

  503 返回码的含义是“服务不可用”。百度会认为网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503的网页,百度蜘蛛不会直接删除该网址,短期内会再次访问。届时,如果网页已经恢复,就可以正常抓取;如果继续返回503,那么短时间内会被多次访问。但是如果网页长时间返回503,那么这个网址还是会被百度视为无效链接,从搜索结果中删除。

  403返回码的意思是“禁止访问”,百度会认为该网页当前被禁止访问。在这种情况下,如果是新发现的网址,百度蜘蛛暂时不会抓取,短期内会再次检查;如果是百度有收录的网址,目前不会直接删除,短期内会再次访问。那个时候,如果网页被允许访问,就会正常抓取;如果仍然不允许,将在短时间内访问多次。但如果网页长时间返回403,百度也会认为是无效链接,从搜索结果中删除。

  301返回码的意思是“Moved Permanently”,百度会认为网页当前重定向到了新的URL。在网站迁移、域名更换、网站改版的情况下,建议使用301返回码,尽量减少改版带来的流量损失。虽然百度蜘蛛现在对 301 跳转的响应周期更长,但我们仍然建议您这样做。

  百度推荐

  1. 如果网站暂时关闭,无法打开网页时,不要立即返回404,否则百度搜索引擎会删除该页面,建议使用503状态。 503可以通知百度蜘蛛该页面暂时无法访问。请稍后再试。百度搜索引擎暂时不会删除。它会给一个审查时间。如果长时间无法打开搜索引擎,链接可能会被删除。

  2.如果百度蜘蛛对你的网站施加太大的压力去爬取,请尽量不要使用404,也建议返回503,这样百度蜘蛛过一段时间会再次尝试爬取这个链接如果那个时候网站是免费的,它就会被成功抓取。

  3.还有一些网站希望百度只会收录部分内容,比如审核后的内容,一段时间积累的新用户页面等等。在这种情况下,建议对新发布的内容暂时返回403,待审核或做好处理后再返回正常返回码。

  4.网站搬迁或域名变更时,请使用301返回码。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线