百度网页关键字抓取(常见的站长异常爬行的原因:服务器连接异常有两种情况 )
优采云 发布时间: 2021-09-16 18:06百度网页关键字抓取(常见的站长异常爬行的原因:服务器连接异常有两种情况
)
以下是网站管理员异常爬行的一些常见原因:
服务器连接异常有两种情况:一是网站不稳定,百度pider在尝试连接时无法连接到您的网站服务器;第二,百度pider已经无法连接到您的网站服务器
服务器连接异常的原因通常是网站服务器太大且过载。您的网站可能无法正常工作。请检查网站web服务器(如Apache和IIS)是否正常安装和运行,并使用浏览器检查主页是否可以正常访问。您的网站和主机也可能会阻止访问百度pider。您需要检查网站和主机防火墙
网络运营业务例外情况:网络运营业务分为电信和中国联通。百度pider无法访问您的网站. 如果发生这种情况,您需要联系您的ISP或购买二线服务或CDN服务的空间
DNS异常:当Baiduspider无法解析您的网站IP地址时,将出现DNS异常。也许你的网站IP地址错了,或者域名服务提供商已经禁止百度pider。请使用whois或主机检查您的网站IP地址是否正确且可解析。如果没有,请联系域名注册机构更新您的IP地址。IP阻塞:IP阻塞是限制网络导出的IP地址,禁止IP段中的用户访问内容。这里,它具体指屏蔽百度piderip。只有当您的网站不希望百度pider访问时,才需要此设置。如果您希望百度pider访问您的网站,请检查百度pider IP是否添加到相关设置错误中。您的网站空间服务提供商也可能禁止百度IP。此时,您需要与服务提供商联系以更改设置
UA阻塞:UA是用户代理服务器,用于标识访问者的身份。当网站访问一个指定的UA并返回一个异常页面或跳转到另一个页面时,它被称为UA阻塞。仅当您不希望百度pider访问您的网站. 如果您希望百度pide访问您的网站,您是否在用户代理中有百度pidrus的相关设置并及时修改
死链:无效且无法向用户提供任何有价值信息的页面是死链,包括协议死链和内容死链
协议死链:页面的TCP协议状态/HTTP协议状态明确表示死链,如44503状态等
内容死链:服务器返回的状态正常,但内容已更改为已删除或需要权限的信息页面,与原创内容无关
对于死链,我们建议网站使用协议死链,通过百度站长平台的死链工具提交给百度,让百度更快的发现死链,减少死链对用户和搜索引擎的负面影响
异常跳转:跳转是将网络请求重定向到另一个位置。异常跳转是指以下情况:
1)当前页面无效(内容为死链等),直接跳转到上一个目录或主页。百度建议站长删除无效页面的条目超链接
对于长期跳转到其他域名,例如更改网站上的域名,百度建议使用301跳转协议
1)Baidu推荐例外:该网页的返回行为与百度推荐的正常内容不同
2)Baidu UA例外:返回百度UA的行为与页面的原创内容不同
3)JS跳转异常:该网页加载了百度无法识别的JS跳转代码。用户通过搜索结果进入网页后跳转。你知道吗