百度网页关键字抓取(百度搜索引擎无法正常访问和抓取的常见原因及解决办法)

优采云 发布时间: 2022-01-03 14:56

  百度网页关键字抓取(百度搜索引擎无法正常访问和抓取的常见原因及解决办法)

  部分内容质量较高的网页用户可以正常访问,但百度PIDer无法正常访问和抓取,导致搜索结果覆盖率不足,给百度搜索引擎和网站带来损失。百度称这种情况为“抢占异常”。

  百度搜索引擎会考虑网站大量内容无法正常获取的用户体验缺陷,降低对网站的评价。在抓取、索引和排序方面,百度搜索引擎会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。

  下面介绍一些常见的站长异常爬取的原因:

  服务器连接异常有两种情况:(1)网站不稳定,百度蜘蛛尝试连接时暂时无法连接到你的网站服务器;(2)百度蜘蛛一直无法连接到您的网站服务器。

  1、服务器连接异常的原因通常是你的网站服务器太大,过载。您的 网站 也可能出现故障。请检查网站的web服务器(如Apache、IIS)是否安装运行正常,并使用浏览器查看主页是否可以正常访问。您的 网站 和主机也可能会阻止百度蜘蛛的访问。您需要检查网站和主机的防火墙。

  2、 网络运营商的例外:网络运营商分为两类:电信和中国联通。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况,您需要联系网络服务商,或者购买空间和二线服务或CDN服务。

  3、DNS 异常:当百度蜘蛛无法解析您的网站 IP 地址时,会发生DNS 异常。可能是你的网站 IP地址错误,或者域名服务商已经屏蔽了百度蜘蛛。请使用 whois 或 host 来检查您的 网站 IP 地址是否正确且可解析。如果没有,请联系域名注册商更新您的 IP 地址。

  4、IP阻塞:IP阻塞是限制网络的导出IP地址,禁止IP段内的用户访问内容。这里特指对百度PIDerip的屏蔽。仅当您的 网站 不希望百度 PIDer 访问时才需要此设置。如果您想让百度PIDer访问您的网站,请检查百度蜘蛛IP是否错误添加到相关设置中。你的网站所在的空间服务商也可能封禁百度IP。这时候需要联系服务商修改设置。

  5、UA 阻塞:UA 是一个用户代理。服务器通过 UA 识别访问者的身份。当网站访问指定的UA返回异常页面(如403500)或跳转到另一个页面时,称为UA阻塞。此设置仅在您不希望Baiduspider访问你的网站只需要,如果你想让百度访问你的网站,在用户代理相关设置里有没有百度,及时修改。

  

  百度蜘蛛爬行异常问题

  6、 死链接:页面无效。不能为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接。

  协议死链接:页面的TCP协议状态/HTTP协议状态明确显示死链接,如404、403、503状态等

  内容死链接:服务器返回的状态正常,但内容已更改为不存在、已删除或需要权限的页面,与原创内容无关。

  对于死链接,我们建议网站使用协议死链接,通过百度站长平台的死链接工具提交给百度,这样百度可以更快的找到死链接,减少死链接对网站的影响用户和搜索引擎。负面影响。

  7、 异常跳转:跳转是将网络请求重定向到另一个位置。异常跳转是指以下几种情况:

  1)当前页面为无效页面(内容已删除、死链接等),直接跳转到上一目录或首页,百度建议站长删除无效页面的入口超链接

  注意:如果长时间重定向到另一个域名,比如在网站上更改域名,百度建议使用301重定向协议进行设置。

  8、其他网站异常原因:

  1)百度推荐人异常:网页返回与百度推荐人正常内容不同的行为。

  2)百度UA异常:返回百度UA的网页行为与页面原创内容不同。

  3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,用户通过搜索结果进入网页后跳转。

  4) 压力过大意外阻塞:百度会根据网站规模、流量等信息自动设置合理的爬取压力。但是,在压力控制异常等异常情况下,服务器会根据自身的负载受到保护和意外锁定。在这种情况下,请在返回码中返回503(意为“服务不可用”),以便百度蜘蛛在一段时间内再次尝试获取链接。如果网站空闲,将成功获取网站。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线