百度网页关键字抓取( 风中蹦迪12-14:53阅读5关注有一些网页内容优质)
优采云 发布时间: 2021-12-14 21:36百度网页关键字抓取(
风中蹦迪12-14:53阅读5关注有一些网页内容优质)
在风中弹跳
12-14 11:53 阅读5
注意
搜索引擎蜘蛛异常抓取的原因有哪些?
部分网页内容质量高,用户可以正常访问,但搜索引擎蜘蛛却无法正常访问和抓取,导致搜索结果覆盖不足,对搜索引擎和网站都是一种损失。百度称这种情况为“抓”Take exception”
部分网页内容质量高,用户可以正常访问,但搜索引擎蜘蛛却无法正常访问和抓取,导致搜索结果覆盖不足,对搜索引擎和网站都是一种损失。百度称这种情况为“抓”取例外。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验缺陷,降低对网站的评价@网站,在爬取、索引、排序方面都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
服务器连接异常
服务器连接异常有两种情况:一种是站点不稳定,搜索引擎蜘蛛尝试连接你的网站服务器时暂时无法连接;另一种是搜索引擎蜘蛛一直无法连接到你网站的服务器。
服务器连接异常的原因通常是你的网站服务器运行过大,负载过重。也可能是你的网站运行不正常。请检查网站的web服务器(如apache、iis)是否安装运行正常,并使用浏览器查看主页是否可以正常访问。您的 网站 和主机也可能会阻止搜索引擎蜘蛛的访问。您需要检查网站的防火墙和主机。
网络运营商例外
有两种类型的网络运营商:电信和中国联通。搜索引擎蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况,您需要联系网络服务运营商,或者购买双线服务的空间或购买CDN服务。
DNS 异常
当搜索引擎蜘蛛无法解析您的网站 IP时,就会出现DNS异常。可能是你的网站IP地址错误,或者域名服务商屏蔽了搜索引擎蜘蛛。请使用 WHOIS 或主机检查您的 网站 IP 地址是否正确且可解析。如果不正确或无法解决,请联系域名注册商更新您的IP地址。
知识产权禁令
IP阻塞是:限制网络的出口IP地址,禁止该IP段的用户访问内容。这里特指屏蔽搜索引擎蜘蛛IP。仅当您的 网站 不希望搜索引擎蜘蛛访问时才需要此设置。如果您想让搜索引擎蜘蛛访问您的网站,请检查相关设置中是否错误添加了搜索引擎蜘蛛IP。也有可能你网站所在的空间服务商被封禁了百度IP,则需要联系服务商更改设置。
UA禁令
UA是User-Agent,服务器通过UA识别访问者的身份。当网站返回异常页面(如403、500)或跳转到其他页面)访问指定的UA时,即被UA禁止。当你的网站不想搜索时,只有在引擎蜘蛛访问时才需要这个设置。如果想让搜索引擎蜘蛛访问你的网站,在useragent相关设置中是否有搜索引擎蜘蛛UA,及时修改。
死链接
页面无效,不能为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接两种形式。
协议死链接
页面的 TCP 协议状态/HTTP 协议状态明确指出死链接,如 404、403、503 状态等。
内容死链接:服务器返回状态是正常的,但是内容已经变为不存在、删除或者需要权限信息的页面,与原内容无关。
对于死链接,我们建议网站使用协议死链接,通过百度站长平台-死链接工具提交给百度,以便百度更快找到死链接,减少死链接对用户和搜索引擎的负面影响。
异常跳跃
将网络请求重定向到另一个位置是一种跳转。异常跳转是指以下几种情况:
1)当前页面无效(内容删除、死链接等),直接跳转到上一目录或首页,百度建议站长删除无效页面的入口超链接
2) 跳转到错误或无效的页面
注:长时间重定向到其他域名,如网站更改域名,百度建议使用301重定向协议进行设置。
其他例外:
1) 针对百度引用的异常:从百度返回引用的网页行为与正常内容不同。
2)百度UA异常:网页返回百度UA的行为与页面原创内容不同。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,导致用户通过搜索结果进入页面后跳转。
4) 压力过大导致意外封禁:百度会根据网站规模、流量等信息自动设置合理的爬取压力。但是,在异常情况下,例如压力控制异常时,服务器会根据自身负载偶尔被禁止进行保护。在这种情况下,请在返回码中返回503(它的意思是“服务不可用”),这样搜索引擎蜘蛛会在一段时间后尝试抓取这个链接,如果网站空闲,就会成功抓。