网页抓取qq(大量死链对搜索引擎来讲,有什么影响?(图))
优采云 发布时间: 2022-03-04 13:25网页抓取qq(大量死链对搜索引擎来讲,有什么影响?(图))
大量死链接对搜索引擎有什么影响?
1、几乎很多网站都无法避免死链接,但是死链接率太高,会影响搜索引擎对网站的评分。
2、搜索引擎每天限制每个网站的抓取频率。如果网站中有大量死链接,会浪费爬取配额,影响正常页面的爬取。
3、过多的死链接对于网站 用户来说也是一种糟糕的体验。
百度站长工具出现抓取异常,那么这个工具里面的异常数据是怎么产生的呢?
1、网站添加了错误的内部链接
编辑错误或程序员的粗心导致页面为不存在的页面生成 URL。
2、由于程序或页面调整或修改,无法打开原来的正常页面
由于程序的变化,一些正常的页面无法打开。
3、网站暂时无法访问
网站因服务器、空间或程序问题无法访问,抓取异常会出现大量500错误页面。
4、外部链接错误
用户或站长在站外发错网址,蜘蛛抓取后生成错误页面;其他 网站 复制或 采集 带有错误链接的页面;一些垃圾网站自动生成静态搜索结果页面,比如www。8875. org/desc/3715714444.html 此页面上出现的许多链接在 html 前面都有“...”。
5、爬虫提取了一个不完整的 URL
有的爬虫在提取页面URL时,只提取部分URL或者同时提取正常URL后面的文字或字符。
6、网站修改或管理员删除页面
网站修改过程中处理不当导致部分旧页面无法访问,或者网站管理员删除了被黑、广告、过时或泛滥的页面。
当出现上述情况时,我们该如何解决呢?
1、修复错误页面爬取异常中的很多错误页面都是程序员的粗心或者我们的程序问题造成的。它们应该是正常的页面,但由于错误而无法访问。对于此类页面,请尽快修复它们。.
2、提交死链接但是肯定有很多不应该存在的错误页面,所以我们需要想办法获取这些页面的URL。主要有以下三种获取方式:
(1)百度站长工具--爬取异常--找不到页面--复制数据【更正:我们这里不需要提交死链接,百度站长工具自动提交死链接】;
(2)当管理员手动删除页面或程序自动保存被删除页面的URL时;
(3)使用相关爬虫软件爬取整个站点获取死链接,比如Xenu。
然后把上面的数据合并删除重复的(excel表格可以实现去重,wps表格更容易操作),然后复制所有的url通过http状态批量查询工具查询【这个好/webspeed.aspx ],并删除非必要的 404 返回代码页。
然后将上面处理好的数据整理粘贴到网站根目录下的一个文档中,将文档地址提交到百度站长工具--网页爬取--死链接提交--添加新数据--填写死链接链接文件地址。
3、在机器人中阻止爬行
如果大量错误的URL有一定的规则,可以在robots文件中写一条规则,禁止蜘蛛程序抓取此类链接,但前提是一定要照顾好正常的页面,避免阻止规则误伤正常页面,比如你的网站都是静态URL,那么如果错误链接收录?,规则写成Disallow:/*?*,如果错误链接中有/id...html,规则写成不允许:/*...*。
将规则添加到robots文件后,一定要去百度站长的robots工具进行验证,把指定的错误页面放进去看看是否封禁成功,再放入正常的页面看看是否被误封.
相关说明:
1、在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接,或者有HTTP状态码不是404的页面。一旦有活链接,会显示提交失败,无法删除。
2、由于很多网站程序问题,很多打不开的页面返回码不是404,这是个大问题。比如打不开的页面返回码是301、200、500,如果是200,会导致网站中不同的URL获取相同的内容。比如我的一个网站,社区的帖子被删除后,返回码是500,后来发现,马上处理。尝试查找所有错误的URL格式,打开后设置HTTP状态码为404。
3、找到所有错误页面后,一定要寻找这些页面的URL相同的特征,并与正常页面的特征区分开来,在robots文件中写下相应的规则,禁止爬虫爬取,即使你已经在网站上 长工具提交死链接,也建议禁止机器人爬取。
4、机器人只能解决蜘蛛不再抓取此类页面的问题,而无法解决删除已经抓取的页面快照的问题。如果你的网站被黑了,删除被黑的页面,除了robots,除了封禁黑页,这些页面也应该提交死链接。提交死链接是删除被黑页面快照的最快方法。[站长社区-版主ccutu]