百度网页关键字抓取(百度搜索引擎无法正常访问和抓取的常见原因及解决办法)

优采云 发布时间: 2021-09-28 06:08

  百度网页关键字抓取(百度搜索引擎无法正常访问和抓取的常见原因及解决办法)

  部分内容质量较高的网页用户可以正常访问,但百度Pider无法正常访问和抓取,导致搜索结果覆盖不足,给百度搜索引擎和网站造成损失。百度称这种情况为“抢占异常”。

  百度搜索引擎会考虑网站的用户体验缺陷,无法正常获取大量内容,降低对网站的评价。在抓取、索引和排序方面,百度的搜索引擎会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。

  下面介绍一些常见的站长爬虫异常的原因:

  服务器连接异常有两种情况:(1)网站不稳定,百度蜘蛛尝试连接时暂时无法连接到你的网站服务器;(2)百度蜘蛛有一直无法连接到您的 网站 服务器。

  1、服务器连接异常的原因通常是你的网站服务器太大,过载。您的 网站 也可能出现故障。请检查网站的web服务器(如Apache、IIS)是否安装运行正常,并使用浏览器查看主页是否可以正常访问。您的 网站 和主机也可能会阻止百度蜘蛛的访问。您需要检查网站的防火墙和主机。

  2、 网络运营商的例外:网络运营商分为电信和联通两种。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况,您需要联系网络服务商,或者购买空间和二线服务或CDN服务。

  3、DNS异常:当Baiduspider无法解析您的网站IP地址时,会发生DNS异常。可能是你的网站 IP地址错误,或者域名服务商已经屏蔽了百度蜘蛛。请使用 whois 或 host 来检查您的 网站 IP 地址是否正确且可解析。如果没有,请联系域名注册商更新您的 IP 地址。

  4、IP阻塞:IP阻塞是限制网络的导出IP地址,禁止IP段内的用户访问内容。这里特指百度PIDerip的屏蔽。仅当您的 网站 不希望百度 PIDer 访问时才需要此设置。如果您想让百度PIDer访问您的网站,请检查百度蜘蛛IP是否错误添加到相关设置中。你的网站所在的空间服务商也可能封禁百度IP。这时候需要联系服务商更改设置。

  5、UA 阻塞:UA 是一个用户代理。服务器通过 UA 识别访问者的身份。当网站访问指定的UA返回异常页面(如403500)或跳转到另一个页面时,称为UA阻塞。此设置仅在您不希望百度蜘蛛访问你的网站,如果你想让百度访问你的网站,用户代理相关设置中是否有百度,及时修改。

  

  百度蜘蛛抓取异常问题

  6、 死链接:页面无效,不能为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接。

  协议死链接:页面的TCP协议状态/HTTP协议状态明确显示死链接,如404、403、503状态等。

  内容死链接:服务器返回的状态正常,但内容已更改为不存在、已删除或需要权限的页面,与原内容无关。

  对于死链接,我们建议网站使用协议死链接,通过百度站长平台的死链接工具提交给百度,这样百度可以更快的找到死链接,减少死链接对用户和搜索的负面影响引擎。

  7、 异常跳转:跳转就是将网络请求重定向到另一个位置。异常跳转是指以下几种情况:

  1)当前页面为无效页面(内容已删除、死链接等),直接跳转到上一目录或首页,百度建议站长删除无效页面的入口超链接

  注意:如果长时间重定向到其他域名,比如在网站上更改域名,百度建议使用301重定向协议进行设置。

  8、其他网站异常原因:

  1) 百度推荐人异常:网页返回与百度推荐人正常内容不同的行为。

  2) 百度UA异常:返回百度UA的网页行为与页面原创内容不同。

  3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,用户通过搜索结果进入网页后跳转。

  4) 压力过大导致意外阻塞:百度会根据网站规模、流量等信息自动设置合理的爬取压力。但是,在异常压力控制等异常情况下,服务器会根据自身负载受到保护和意外锁定。在这种情况下,请在返回码中返回503(表示“服务不可用”),以便百度蜘蛛在一段时间内再次尝试获取链接。如果网站处于空闲状态,将成功获取网站。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线