百度爬虫抓取异常快照解决思路
优采云 发布时间: 2022-05-14 15:59百度爬虫抓取异常快照解决思路
最近碰到一位客户的网站百度快照是全是异常信息,快照地址也是不存在的页面。一般遇到这种情况第一反应应该是网站被篡改了,于是帮客户扫描网站程序把异常文件清理掉,检查数据库是否有异常数据,并对百度快照进行投诉。然而观察半个月,这个问题还是依然会存在,但是网站已经没有木马或异常信息,只能仔细分析网站访问日志,突然发现蜘蛛爬虫抓取的地址是不存在的路径,而且网站返回状态码是200。我仿佛看到了问题所在,对就是这个200状态码。原来网站对404页面多了伪静态跳转,返回200状态码并跳转到友好页面跳转。
于是去搜索了关于404页面但返回200状态码危害:当搜索引擎蜘蛛在请求某个错误URL地址得到“404”状态回应时,即知道该URL地址已经失效,便不再索引该网页,并向数据中心反馈将该URL地址表示的网页从索引数据库中删除,而当搜索引擎对于这个404页面得到的是“200”状态回应时,则会认为该url地址是有效的,便会去索引,并会将其收录到索引数据库,这样你的所有错误页面对于搜索引擎来说都是不同url地址内容相同的页面,这会导致出现大量重复页面,会大大降低网站质量的评分,甚至直接降权。
所以正确设置的自定义404错误页面,不仅应当能够正确地显示,同时,应该返回“404”错误代码,而不是200或其他的。不仅要告诉用户该页面不存在,也要正确的让搜索引擎知道这是404错误页面而不是一个正常的页面。
按照这个思路,我重新调整了伪静态规则,并配置IIS的404错误页面和状态码。如图所示:
至此调整完毕,静等快照更新。