网页抓取数据百度百科(百度站长工具中有一个抓取异常的解决方法及解决办法)
优采云 发布时间: 2022-01-29 16:24网页抓取数据百度百科(百度站长工具中有一个抓取异常的解决方法及解决办法)
在网站的日常操作中,难免会出现死链接。如果网站死链接率太高,也会影响搜索引擎在网站上的评分;网站每日爬取频率有限,大量死链接网站会浪费爬取配额,影响正常页面的爬取;过多的死链接也会影响用户体验。接下来小编就来分析一下网站死链接的产生过程和解决方法。
百度站长工具出现抓取异常,那么这个工具里面的异常数据是怎么产生的呢?
1、网站内部添加了不正确的内部链接,编辑器错误或程序员不小心使页面生成了一个不存在的URL。
2、原来是因为程序变更或者页面调整改版,一些正常的页面打不开。
3、网站暂时无法访问,由于服务器、空间或程序问题,网站无法访问,抓取异常会出现大量500错误页面。
4、外链连接错误,用户或站长在站外发布了错误的URL,蜘蛛爬错了页面;其他网站复制或采集您的网站收录错误的链接页面;一些垃圾网站自动生成的静态搜索结果页面。
5、爬虫提取不完整的 URL。某些爬虫在提取页面URL时,只会提取部分URL或提取正常URL后面的文字或字符。
6、网站修改或管理员删除页面,网站修改过程中处理不当导致部分旧页面无法访问,或网站管理员删除被黑、广告、过时、浇水的页面。
当出现上述情况时,我们该如何解决呢?
1、修复错误页面爬取异常中的很多错误页面都是程序员的粗心或者我们的程序问题造成的。它们应该是正常的页面,但由于错误而无法访问。对于此类页面,请尽快修复它们。.
2、提交死链接但毕竟很多错误页面不应该存在,所以我们需要想办法获取这些页面的URL。主要有以下三种获取方式:
(1)百度站长工具--爬取异常--找不到页面--复制数据【修正:我们这里不需要提交死链接,百度站长工具自动提交死链接】;
(2) 管理员删除页面时,被删除页面的URL可以手动保存,也可以由程序自动保存;
(3)使用相关爬虫软件爬取整个站点获取死链接,比如Xenu。
然后合并以上数据,删除重复项(excel表可以实现去重,wps表更容易操作),然后复制所有的url通过http状态批量查询工具查询,排除非404返回代码页。
然后将上面处理好的数据整理粘贴到网站根目录下的一个文档中,将文档地址提交到百度站长工具--网页爬取--死链接提交--添加新数据--填写死链接链接文件地址。
3、在机器人中阻止爬行
如果大量错误的URL有一定的规则,可以在robots文件中写一条规则,禁止蜘蛛程序抓取此类链接,但前提是一定要照顾好正常的页面,避免阻止规则误伤正常页面,比如你的 网站 都是静态 URL,所以如果错误的链接收录 ? 如果有,规则写成Disallow:/*?*,如果错误链接中有/id...html,规则写成Disallow:/*...*。
将规则添加到robots文件后,一定要去百度站长的robots工具进行验证,把指定的错误页面放进去看看是否封禁成功,再放入正常的页面看看是否被误封.
1、在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接,或者有HTTP状态码不是404的页面。一旦有活链,会显示提交失败,无法删除。
2、由于很多网站程序问题,很多打不开的页面返回码不是404,这是个大问题。比如打不开的页面返回码是301、200、500,如果是200,会导致网站中不同的URL获取相同的内容。比如我的一个网站,社区的帖子被删除后,返回码是500,后来发现,马上处理。我们试图找出所有错误的 URL 格式。并且打开后设置HTTP状态码为404。
3、找到所有错误页面后,一定要寻找这些页面的URL相同的特征,并与正常页面的特征区分开来,将相应的规则写入robots文件,禁止蜘蛛进入爬取,即使你已经在网站上 长工具提交死链接,也建议禁止机器人爬取。
4、机器人只能解决蜘蛛不再抓取此类页面的问题,而无法解决删除已经抓取的页面快照的问题。如果你的网站被黑了,删除被黑的页面,除了robots,除了封禁黑页,这些页面也应该提交死链接。提交死链接是删除被黑页面快照的最快方法。