网站内容抓取工具( robots.txt文件规定了抓取工具允许/禁止请求 )
优采云 发布时间: 2021-12-23 02:05网站内容抓取工具(
robots.txt文件规定了抓取工具允许/禁止请求
)
robots.txt 文件指定了网站 上的哪些页面或文件被搜索引擎爬虫请求抓取。SiteMap(站点地图)是一个文件,可以在网站中提供与网页、视频或其他文件相关的信息,也可以说明这些内容之间的关系。搜索引擎会读取这个文件,以便更智能地抓取网站。
机器人.txt
该文件主要用于防止网站接收过多的请求(过多的搜索引擎抓取非常耗费资源);这不是阻止搜索引擎访问网页的有效方法。如果你想阻止搜索引擎访问一个网页,你应该使用 noindex 命令,或者使用密码保护。
robots.txt 的认知要点 并非所有搜索引擎都支持 robots.txt 指令
robots.txt文件中的命令不会强制爬虫在网站上的行为;爬虫决定是否遵循这些命令。常规的网络爬虫工具会按照robots.txt文件中的命令执行,但有些爬虫工具可能不一样。因此,如果您想确保某些信息不会被网络爬虫抓取,我们建议您使用其他屏蔽方法,例如对服务器上的私人文件进行密码保护。
不同的爬虫会以不同的方式解析语法
虽然正式的网络爬虫会遵循robots.txt文件中的指令,但每个爬虫可能会以不同的方式解析这些指令。您需要了解不同网络爬虫的正确语法,因为有些爬虫可能无法理解某些命令
如果其他 网站 上有指向被 robots.txt 文件阻止的网页的链接,该网页仍可能被索引
尽管搜索引擎不会抓取 robots.txt 阻止的内容或将其编入索引,但如果网络上其他地方存在指向禁止 URL 的链接,我们仍可能找到该 URL 并将其编入索引。因此,相关网址和其他公开显示的信息(例如相关页面链接中的锚文本)可能仍会出现在搜索引擎搜索结果中。为了正确防止您的 URL 出现在搜索引擎搜索结果中,您应该为服务器上的文件设置密码保护,或者使用 noindex 元标记或响应标头(或完全删除页面)。
robots.txt命令的编写请参考:
站点地图网站地图
站点地图会告诉搜索引擎网站中哪些页面和文件更重要,并提供与这些文件相关的重要信息: 以一个网页为例,该信息包括该网页最后更新的时间页面和网页更改 页面是否以其他语言提供的频率以及是否可用。
在以下情况下,建议使用站点地图:
网站*敏*感*词*。在这种情况下,搜索引擎网络爬虫在爬取时更有可能遗漏一些新页面或最近更新的页面。
网站大量内容页被归档,这些内容页之间没有关联或缺乏有效链接。如果你的 网站 页面不是自然地相互引用,你可以在站点地图中列出这些页面,以确保搜索引擎不会遗漏其中的一些。
网站 是新的 网站 并且指向这个 网站 的外部链接并不多。网络爬虫通过跟踪网页之间的链接来抓取网页。因此,如果没有其他网站 链接到您的网页,搜索引擎可能找不到您的网页。
网站 收录大量富媒体内容(视频、图片)。如果提供站点地图,搜索引擎可以在适当的情况下将站点地图中的其他信息纳入搜索范围。
创建站点地图
一般主流搜索引擎都支持多种格式的站点地图。无论使用哪种格式,单个站点地图的文件大小不得超过 50MB(未压缩),其中收录的 URL 数量不得超过 50,000,否则站点必须将地图拆分为多个较小的站点地图。
XML 格式
例子:
https://www.example.com/1.html
2021-02-23