百度网页关键字抓取(百度spider衔接反常的原因及反常原因分析及解决办法)

优采云 发布时间: 2021-10-02 20:00

  百度网页关键字抓取(百度spider衔接反常的原因及反常原因分析及解决办法)

  部分内容质量较高的网页用户可以正常访问,但百度PIDer无法正常访问和抓取,导致搜索结果覆盖不足,给百度搜索引擎和网站造成损失。百度将这种情况称为“抢占异常”买卖链。

  百度搜索引擎会考虑很多网站无法正常获取的内容的用户体验缺陷,减少对网站的评论。在抓取、索引和排序方面,百度的搜索引擎会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。

  下面介绍一些常见的站长爬虫异常的原因:

  服务器连接异常有两种情况:(1)网站不稳定,测试连接时百度蜘蛛暂时无法连接到你的网站服务器;(2)百度蜘蛛一直无法连接到您的 网站 服务器。

  1、服务器连接异常的原因通常是你的网站服务器太大,过载。您的 网站 也可能出现故障。请检查网站的web服务器(如Apache、IIS)是否安装运行正常,并使用浏览器查看主页是否可以正常访问。您的 网站 和主机也可能会阻止百度蜘蛛访问。您需要检查网站 和主机的防火墙。

  2、 网络运营商的例外:网络运营商分为电信和联通两种。百度蜘蛛无法通过中国电信或网通访问您的网站。如果出现这种情况,您需要联系网络服务商,或者购买空间和二线服务或CDN服务。

  3、DNS异常:当百度蜘蛛无法解析您的网站IP地址时,就会出现DNS异常。可能你的网站 IP地址不对,可能域名服务商已经停止了百度蜘蛛。请使用 whois 或 host 来检查您的 网站 IP 地址是否正确且可解析。如果没有,请联系域名注册商更新您的 IP 地址并出售链接。

  4、IP 拥塞:IP 拥塞是限制网络的导出 IP 地址,阻止 IP 段内的用户访问内容。这里详细指的是百度PIDerip的屏蔽。仅当您的 网站 不希望百度 PIDer 访问时才需要此设置。如果您想让百度PIDer访问您的网站,请检查百度蜘蛛IP是否错误添加到相关设置中。你的网站所在的空间服务商也可能会停止百度IP。这时候需要联系服务商更改设置。

  5、UA 被阻止:UA 是一个用户代理。服务器通过 UA 识别访问者的身份。当网站访问指定的UA返回异常页面(如403500)或跳转到另一个页面时,称为UA阻塞。此设置仅在您不想要百度蜘蛛时只需要访问你的网站,如果你想让百度访问你的网站,用户代理相关设置中是否有百度,及时修改其购买链接。

  

  百度蜘蛛抓取异常问题

  6、 死链接:页面无效,不能为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接。

  协议死链接:页面的TCP协议状态/HTTP协议状态明确显示死链接,如404、403、503状态等。

  内容死链接:服务器返回状态正常,但内容已更改为不存在、已删除或需要权限的信息页面,与原内容无关。

  对于死链,我们提倡网站使用协议死链,通过百度站长平台的死链工具提交给百度,让百度更快的发现死链,减少死链对用户的负面影响,搜索引擎。链接交换。

  7、 异常跳转:跳转就是将网络请求重定向到另一个位置。异常跳转是指以下情况:

  1)当前页面为无效页面(内容已删除、死链接等),直接跳转到上一目录或首页,百度主张站长删除无效页面的导入超链接

  注意:如果长时间重定向到其他域名,比如在网站上更改域名,百度提倡使用301重定向协议进行设置。

  8、其他网站异常原因:

  1) 关于百度推荐人的异常:返回网页的行为与百度推荐人的正常内容不同。

  2) 关于百度UA的异常:返回百度UA网页的行为与页面原创内容不同。

  3) JS跳转异常:网页加载了百度无法识别的JS跳转代码,用户搜索结果进入网页后跳转。

  4) 压力过大导致意外阻塞:百度会根据网站规模、访问量等信息,主动设置合理的爬取压力。但是,在压力控制异常等异常情况下,服务器会根据自身的负载意外阻塞维护。在这种情况下,请在返回码中返回503(意为“服务不可用”),以便百度蜘蛛在一段时间内再次测试获取链接。如果网站空闲,将成功获取网站。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线