搜索引擎如何抓取网页(百度搜索引擎蜘蛛无法解析您的网站和主机的防火墙)
优采云 发布时间: 2021-09-22 00:23搜索引擎如何抓取网页(百度搜索引擎蜘蛛无法解析您的网站和主机的防火墙)
有些网页内容质量高,用户可以正常访问,但搜索引擎蜘蛛无法正常访问和爬行,导致搜索结果覆盖率不足,这对搜索引擎和网站都是一种损失。百度称这种情况为“爬网异常”。对于无法正常捕获大量内容的网站而言,百度搜索引擎会认为网站存在用户体验缺陷,降低对网站的评价,并在一定程度上对其捕获、索引和排序产生负面影响,最终影响网站从百度获得的流量
服务器连接异常
服务器连接异常有两种情况:一种是站点不稳定,搜索引擎蜘蛛在尝试连接您的网站服务器时暂时无法连接;一是搜索引擎蜘蛛无法连接到您的网站服务器
服务器连接异常的原因通常是网站服务器太大且过载。您的网站也可能运行不正常。请检查网站web服务器(如Apache和IIS)是否正常安装和运行,并使用浏览器检查主页是否可以正常访问。您的网站和主机也可能会阻止搜索引擎爬行器的访问。您需要检查网站和主机的防火墙
网络运营商例外
网络运营商分为中国电信和中国联通。搜索引擎爬行器无法访问您的网站. 如果发生这种情况,您需要联系网络服务运营商,或购买具有双线服务的空间,或购买CDN服务
DNS例外
当搜索引擎爬行器无法解析您的网站IP时,将出现DNS异常。它可能是你的网站IP地址错误,或者域名服务提供商已经禁止搜索引擎蜘蛛。请使用whois或host查询您自己网站IP地址是否正确且可解析?如果不正确或无法解决,请联系域名注册机构更新您的IP地址
IP阻塞
IP阻塞是限制网络的导出IP地址,并禁止该IP段的用户访问内容。这里,它具体指的是阻止搜索引擎蜘蛛IP。只有当您的网站不希望搜索引擎爬行器访问它时,才需要此设置。如果您希望搜索引擎蜘蛛访问您的网站,请检查相关设置中是否错误添加了搜索引擎蜘蛛IP。您的网站空间服务提供商也可能屏蔽了百度IP。此时,您需要联系服务提供商以更改设置
UA ban
UA是用户代理,服务器通过UA识别访问者。当网站访问指定UA时,返回异常页面(例如403、,500)或跳转到其他页面,即UA阻止。只有当您的网站不希望搜索引擎蜘蛛访问时,才需要此设置。如果您希望搜索引擎蜘蛛访问您的网站,则useragent的相关设置中是否有搜索引擎蜘蛛UA,并及时修改
死链
页面无效。无法向用户提供任何有价值信息的页面是死链接,包括协议死链和内容死链
协议死链
页面的TCP协议状态/HTTP协议状态是显式表示的死链,例如404、 403、503状态等
内容死链:服务器返回的状态正常,但内容已更改为不存在、已删除或需要与原创内容无关的权限的信息页面
对于死链,我们建议站点使用协议死链,通过百度站长平台-死链工具提交给百度,这样百度可以更快的找到死链,减少死链对用户和搜索引擎的负面影响
异常跳跃
将网络请求重定向到另一个位置是跳转。异常跳转指以下情况:
1)目前该页面无效(内容已被删除、死链等),直接跳转到上一个目录或首页,百度建议站长删除该无效页面的入口超链接
2)跳转到错误或无效页面
注意:对于长期跳转到其他域名,如网站更改域名,百度建议使用301跳转协议
其他例外情况:
1)exceptions for Baidu referrs:对于来自百度的referrs,网页返回的行为与正常内容不同
2)exception for Baidu UA:该网页向百度UA返回与页面原创内容不同的行为
3)JS跳转异常:该网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后跳转
4)压力过大造成的意外阻塞:百度会根据站点大小、流量等信息自动设置合理的抓取压力,但在压力控制异常等异常情况下,服务器会根据自身负载进行保护性意外阻塞,在这种情况下,p在返回代码中租赁返回503(表示“服务不可用”),这样,搜索引擎蜘蛛会在一段时间后再次尝试抓取该链接。如果网站处于空闲状态,则会成功抓取该链接