网页抓取qq(新手做网站有时候404后带来不必要的收录和流量损失)
优采云 发布时间: 2021-11-17 00:16网页抓取qq(新手做网站有时候404后带来不必要的收录和流量损失)
新手做网站 有时候页面还没准备好就上线了,当这些页面被百度抓取时,返回码是404,所以页面被百度抓取后,会直接作为死链接删除. 不过这个页面会在隔天或者几天后建好,会显示在网站中,但是由于之前已经被百度删除为死链接,所以只能等这些链接被删除了再次发现,然后抓到为了显示,这样的操作最终会导致部分页面在百度一段时间内不出现。
例如,某大型门户网站网站爆料了百度不及时收录的大量时间敏感话题。QQ统计,网站统计,经过检查验证,发现是因为页面没有完成,放到网上,返回404状态码,被百度当做死链接删除,导致 收录 和流量丢失。
如果出现这样的问题,建议网站新创建的页面可以使用503合理使用返回码,这样百度的蜘蛛抓取503返回码一段时间后才会访问这个地址。新页面建好后可以再次爬取,保证页面被及时爬取和索引,避免未建内容设置为404后造成不必要的收录和流量损失。
下面详细介绍一下百度支持的几种常见返回码:
1、404:404返回码的意思是“NOT FOUND”。百度会认为该网页无效,因此通常会从搜索结果中删除,而蜘蛛会在短期内再次找到该网址而不会对其进行抓取。
2、301:301返回码的意思是“Moved Permanently”,百度会认为网页当前重定向到了新的url。在网站迁移、域名更换、网站改版等情况下,建议使用301返回码,尽量减少改版带来的流量损失。虽然百度蜘蛛现在对301跳转的响应周期更长,但我们仍然建议您这样做。
3、503:503返回码的意思是“Service Unavailable”,百度会认为网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503的网页,百度蜘蛛不会直接删除该网址,短期内还会再次访问。届时,如果网页已经恢复,就可以正常抓取;如果继续返回503,短时间内会被多次访问。但是如果网页长时间返回503,那么这个url仍然会被百度认为是失效链接,会从搜索结果中删除。
总结:
1、 如果百度蜘蛛对你的网站抓取压力太大,请尽量不要使用404,也建议返回503。这样百度蜘蛛过一段时间会再次尝试抓取这个链接. 如果该站点当时是免费的,它将被成功抓取。
2、 如果网站暂时关闭或页面尚未准备好上线,请不要在网页无法打开或未完成时立即返回404。推荐使用503状态。503可以告诉百度蜘蛛该页面暂时无法访问,请稍后再试
本文转载于:网站访客QQ统计