c 抓取网页数据(谷歌开源robots.txt解析器排除协议(REPExclusion寺))

优采云 发布时间: 2021-12-25 22:10

  c 抓取网页数据(谷歌开源robots.txt解析器排除协议(REPExclusion寺))

  奥飞寺鱼羊

  量子比特报告| 公众号QbitAI

  Robots.txt 任何接触过网络爬虫的人都不会陌生。这个存放在网站根目录下的ASCII码文件表示网站上哪些内容可以爬取,哪些内容禁止爬取。

  今年,robots.txt 将满 25 岁。为了庆祝这位互联网MVP的生日,谷歌再次推出开源robots.txt解析器,力图推动机器人排除协议(REP)正式成为互联网行业标准。

  

  非标标准

  机器人排除协议(Robots Exclusion Protocol)是荷兰软件工程师Martijn Koster于1994年提出的标准,其核心是通过robots.txt这样简单的文本文件来控制爬行机器人的行为。

  REP以其简单高效的方式征服了互联网行业。超过 5 亿个网站正在使用 robots.txt。可以说已经成为了限制爬虫的事实上的标准。例如,Googlebot 会浏览 robots.txt 以确保在抓取网页时。不违反本网站的特别声明。

  然而,在服务互联网行业 25 年之后,REP 仍然只是一个非官方的标准。

  这会造成很多麻烦。

  例如,拼写错误。很多人忽略了robots.txt规则中的冒号,拼写Disallow为Dis Allow的情况并不少见,爬虫一味地抓。

  此外,REP 本身并不涵盖所有情况。比如当服务器出现500错误时,爬虫能不能抓到一切?

  对于网站所有者来说,模糊的事实上的标准使得正确编写规则变得困难。这让人头疼,更何况不是所有的爬虫都尊重robots.txt。

  来自 Google 的生日礼物

  REP的尴尬被谷歌看到了,从搜索开始。于是在REP诞生25周年之际,谷歌赠送了一份大礼,宣布将与REP原作者Martijn Koster、站长等搜索引擎合作,向互联网工程提交REP的规范使用工作组 (IETF)。努力帮助它成为真正的官方标准!

  为此,谷歌还开源了其爬网工具之一的robots.txt解析器,以帮助开发者构建自己的解析器,以期创建更通用的格式,促进标准的完善。

  

  这个开源的C++库已经存在了20年,涵盖了谷歌在生产过程中遇到的很多与robots.txt文件相关的案例。开源软件包还收录

一个测试工具,可以帮助开发者测试一些规则。

  谷歌表示,他们希望帮助网站所有者和开发者在互联网上创造更多令人惊叹的体验,而不是整天担心如何限制爬虫。

  草案的内容尚未完全公布,但一般会集中在以下几个方向:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线