谷歌抓取网页视频教程( 谷歌希望将几十年前的拒绝蜘蛛协议变成官方互联网标准)
优采云 发布时间: 2022-02-25 09:07谷歌抓取网页视频教程(
谷歌希望将几十年前的拒绝蜘蛛协议变成官方互联网标准)
站长之家7月2日消息:据外媒报道,谷歌希望将已有数十年历史的拒绝蜘蛛协议(Rejection Spider Protocol,REP)变成官方互联网标准。为了促进这一举措,谷歌正在开源自己的 robots.txt 解析器。
据 Venturebeat 报道,早在 1994 年,荷兰软件工程师 Martijn Koster 就提出了 REP 标准,该标准几乎成为了网站用来告诉自动爬虫程序哪些部分不应该被处理的标准。例如,Google 的网络爬虫机器人 Googlebot(类似于百度的蜘蛛)在索引 网站 时会扫描 robots.txt 文件,以检查哪些部分应该被忽略的特殊说明。它最大限度地减少了无意义的索引,有时还隐藏了敏感信息。此外,这些文件不仅用于提供直接爬取指令,还可以填充某些关键字以改善 SEO,以及其他用例。
不过,谷歌认为自己的爬虫技术有待改进,该公司正在公开寻找用于解码 robots.txt 的解析器,试图建立一个真正的网络爬虫标准。理想情况下,这将揭开 robots.txt 文件的神秘面纱并创建更常见的格式。
谷歌主动向互联网工程任务组提交自己的方法将“更好地定义”爬虫应如何处理 robots.txt 并减少意外。
该草案不完全可用,但它不仅适用于 网站,还适用于最小文件大小,设置最长一天的缓存时间,并在服务器出现时给 网站 一个休息时间问题。