seo教程:搜索引擎优化入门与进阶(第2版)电子版( 一个.txt文件是什么以及robots文件的限制文章)
优采云 发布时间: 2021-12-12 19:02seo教程:搜索引擎优化入门与进阶(第2版)电子版(
一个.txt文件是什么以及robots文件的限制文章)
对于一个网站,应该有人不喜欢网站的所有页面都被谷歌抓取,所以产生了robots.txt文件。本文文章将详细解释robots.txt文件是什么以及robots.txt文件的局限性。
什么是robots.txt文件
robots.txt 文件规定了您的网站 上的哪些页面或文件可能不会被搜索引擎爬虫请求抓取。这个文件主要是用来防止你的网站收到过多的请求;它不是阻止 Google 访问网页的机制。
注意:
1. robots.txt 文件只有在禁止抓取某些内容时才有意义。没有robots.txt或空文件意味着允许爬取网站上的所有内容。
2. 由于服务器设置,当robots.txt文件不存在时,会返回状态码“200”而不是“404”状态码。这可能会导致搜索引擎误解机器人文件。因此,为了避免这种情况,即使允许爬取网站上的所有内容,也必须在网站的根目录下放一个空的robots.txt文件。
二、robots.txt文件对网站有什么好处
1、快速提升网站权重和访问量;
2、防止某些文件被搜索引擎索引,可以节省服务器带宽和网站访问速度;
3、 为搜索引擎提供简洁明了的索引环境
三、robots.txt 限制
在创建或编辑 robots.txt 之前,您应该了解这种 URL 拦截方法的局限性。有时,您可能需要考虑其他机制来确保搜索引擎无法在网络上找到您的 URL。
1.并非所有搜索引擎都支持robots.txt命令
robots.txt 文件中的命令不会强制爬虫对您的 网站 采取行动;爬虫决定是否遵循这些命令。Googlebot 和其他常规网络抓取工具会遵循 robots.txt 文件中的命令,但其他抓取工具可能不会这样做。因此,如果您想确保您在网站上的特定信息不会被网络爬虫抓取,我们建议您使用其他屏蔽方式(例如为您服务器上的私人文件提供密码保护)。
2.不同爬虫解析语法不同
尽管正式的网络爬虫遵循 robots.txt 文件中的说明,但这些爬虫可能会以不同的方式解析这些说明。您应该仔细查看不同网络爬虫的正确语法,因为有些爬虫可能无法理解某些命令。
3.如果其他网站页面上有链接被robots.txt文件屏蔽了,该页面仍有可能被索引
尽管 Google 不会抓取 robots.txt 阻止的内容或将其编入索引,但如果网络上其他地方存在指向禁止网址的链接,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(例如相关页面链接中的锚文本)可能仍会出现在 Google 搜索结果中。为了正确防止您的网址出现在 Google 搜索结果中,您应该对服务器上的文件进行密码保护,或者使用 noindex 元标记或响应标头(或完全删除页面)。(来源:SEO易学)