搜索引擎如何抓取网页(百度搜索引擎蜘蛛无法解析您的网站和主机的防火墙)

优采云发布时间: 2021-09-22 00:23

　　有些网页内容质量高，用户可以正常访问，但搜索引擎蜘蛛无法正常访问和爬行，导致搜索结果覆盖率不足，这对搜索引擎和网站都是一种损失。百度称这种情况为“爬网异常”。对于无法正常捕获大量内容的网站而言，百度搜索引擎会认为网站存在用户体验缺陷，降低对网站的评价，并在一定程度上对其捕获、索引和排序产生负面影响，最终影响网站从百度获得的流量

　　服务器连接异常

　　服务器连接异常有两种情况：一种是站点不稳定，搜索引擎蜘蛛在尝试连接您的网站服务器时暂时无法连接；一是搜索引擎蜘蛛无法连接到您的网站服务器

　　服务器连接异常的原因通常是网站服务器太大且过载。您的网站也可能运行不正常。请检查网站web服务器（如Apache和IIS）是否正常安装和运行，并使用浏览器检查主页是否可以正常访问。您的网站和主机也可能会阻止搜索引擎爬行器的访问。您需要检查网站和主机的防火墙

　　网络运营商例外

　　网络运营商分为中国电信和中国联通。搜索引擎爬行器无法访问您的网站. 如果发生这种情况，您需要联系网络服务运营商，或购买具有双线服务的空间，或购买CDN服务

　　DNS例外

　　当搜索引擎爬行器无法解析您的网站IP时，将出现DNS异常。它可能是你的网站IP地址错误，或者域名服务提供商已经禁止搜索引擎蜘蛛。请使用whois或host查询您自己网站IP地址是否正确且可解析？如果不正确或无法解决，请联系域名注册机构更新您的IP地址

　　IP阻塞

　　IP阻塞是限制网络的导出IP地址，并禁止该IP段的用户访问内容。这里，它具体指的是阻止搜索引擎蜘蛛IP。只有当您的网站不希望搜索引擎爬行器访问它时，才需要此设置。如果您希望搜索引擎蜘蛛访问您的网站，请检查相关设置中是否错误添加了搜索引擎蜘蛛IP。您的网站空间服务提供商也可能屏蔽了百度IP。此时，您需要联系服务提供商以更改设置

　　UA ban

　　UA是用户代理，服务器通过UA识别访问者。当网站访问指定UA时，返回异常页面（例如403、，500）或跳转到其他页面，即UA阻止。只有当您的网站不希望搜索引擎蜘蛛访问时，才需要此设置。如果您希望搜索引擎蜘蛛访问您的网站，则useragent的相关设置中是否有搜索引擎蜘蛛UA，并及时修改

　　死链

　　页面无效。无法向用户提供任何有价值信息的页面是死链接，包括协议死链和内容死链

　　协议死链

　　页面的TCP协议状态/HTTP协议状态是显式表示的死链，例如404、 403、503状态等

　　内容死链：服务器返回的状态正常，但内容已更改为不存在、已删除或需要与原创内容无关的权限的信息页面

　　对于死链，我们建议站点使用协议死链，通过百度站长平台-死链工具提交给百度，这样百度可以更快的找到死链，减少死链对用户和搜索引擎的负面影响

　　异常跳跃

　　将网络请求重定向到另一个位置是跳转。异常跳转指以下情况：

　　1）目前该页面无效（内容已被删除、死链等），直接跳转到上一个目录或首页，百度建议站长删除该无效页面的入口超链接

　　2）跳转到错误或无效页面

　　注意：对于长期跳转到其他域名，如网站更改域名，百度建议使用301跳转协议

　　其他例外情况：

　　1）exceptions for Baidu referrs：对于来自百度的referrs，网页返回的行为与正常内容不同

　　2）exception for Baidu UA：该网页向百度UA返回与页面原创内容不同的行为

　　3）JS跳转异常：该网页加载了百度无法识别的JS跳转代码，使得用户通过搜索结果进入页面后跳转

　　4）压力过大造成的意外阻塞：百度会根据站点大小、流量等信息自动设置合理的抓取压力，但在压力控制异常等异常情况下，服务器会根据自身负载进行保护性意外阻塞，在这种情况下，p在返回代码中租赁返回503（表示“服务不可用”），这样，搜索引擎蜘蛛会在一段时间后再次尝试抓取该链接。如果网站处于空闲状态，则会成功抓取该链接

0

2021-09-22

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(百度搜索引擎蜘蛛无法解析您的网站和主机的防火墙)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(百度搜索引擎蜘蛛无法解析您的网站和主机的防火墙)

0 个评论

发起人

相关问题