谷歌搜索引擎优化初学者指南( robots.txt在网站上的页面哪些可以进入哪些不能)
优采云 发布时间: 2022-03-10 18:16谷歌搜索引擎优化初学者指南(
robots.txt在网站上的页面哪些可以进入哪些不能)
robots.txt 文件是告诉搜索引擎哪些内容可以访问您的 网站 页面的主要方法之一。所有主要的搜索引擎都支持它们提供的基本功能。今天我们的 文章 将介绍 robots.txt 在 网站 上的所有使用方式。看起来很简单,你在 网站 上犯的任何 robots.txt 错误都会严重损坏你的 网站,所以在练习之前一定要理解这篇文章。
robots.txt 文件是什么?
取指令
robots.txt 文件是由搜索引擎蜘蛛读取并遵循严格语法内容的文本文件。该文件的语法是严格的,因为它必须是计算机可读的。这意味着这里没有错误的余地。
robots.txt 文件,也称为“机器人排除协议”,是早期搜索引擎蜘蛛开发者共识的结果。它不是任何标准机构制定的官方标准,但所有主要搜索引擎都遵守它。
robots.txt 文件有什么作用?
搜索引擎通过抓取页面并跟踪从站点 A 到站点 B 到站点 C 的链接来索引网页。当搜索引擎搜索遇到新的 网站 时,它将打开该 网站 的 robots.txt 文件,它告诉搜索引擎该站点上的哪些 URL 可以被编入索引。
搜索引擎通常会缓存 robots.txt 的内容,但通常一天会刷新几次,因此变化很快就会反映出来。
我应该在哪里存储 robots.txt 文件?
robots.txt 文件应始终位于域的根目录。所以如果你的域名是,它应该是.
robots.txt 写的内容也很重要。内容区分大小写,因此请正确编写,否则将不起作用。
使用 robots.txt 的优缺点
管理抓取预算
已知搜索蜘蛛输入 网站 以预先确定的“标准”来获取要爬取的页数(爬取的页数基于 网站 的权限/大小/声誉),SEO 将这称为抓取预算。这意味着如果您阻止 网站 的某些部分进行抓取,搜索蜘蛛将抓取其他部分以补充页数。
一般来说,防止搜索引擎抓取您的 网站 有问题的部分是非常有益的,尤其是在需要进行大量 SEO 清理的 网站 上。整理好所有内容后,您可以取消阻止它。
关于阻塞查询参数的说明
robots.txt 的一个特别重要的应用是在使用大量参数查询您的站点时。假设你有 10 个不同的查询参数,每个参数可能有不同的值来生成不同的 URL,这会导致成百上千个无意义的 URL。使用所有查询参数阻止对页面的抓取将有助于确保搜索引擎只搜索 收录your网站 的主要 URL,而不会陷入巨大的陷阱。
此行会阻止所有在 网站 上收录查询字符串的 URL:
不允许: /*?*
缺点:不会从搜索结果中删除页面
即使您可以使用 robots.txt 文件告诉搜索蜘蛛不要访问 网站 上的哪些位置,您也不能使用它来告诉搜索引擎哪些 URL 不显示在搜索结果中。换句话说,阻止它并不能阻止它被索引。搜索引擎仍会出现在搜索结果中,但不会出现在其内容中。
如果你想阻止页面显示在搜索结果中,你需要使用 meta robots noindex 标签。这意味着为了找到 noindex 标签,搜索引擎必须能够访问该页面,因此不要阻止搜索蜘蛛通过 robots.txt 访问该页面。
无索引指令
过去可以向 robots.txt 添加“noindex”指令以从搜索结果中删除 URL 并避免这些“片段”。不再支持,请勿使用。
缺点:不传播链接值
如果搜索引擎无法抓取页面,他们就无法在该页面上的链接之间传播链接值。当一个页面被 robots.txt 阻止时,这是一个死胡同。任何可能流向(并通过)页面的链接值都会丢失。
robots.txt 语法
用户代理指令
每个指令块的第一位是用户代理,它标识特定的蜘蛛。User-agent 字段匹配特定蜘蛛(通常更长)的用户代理,因此,例如,谷歌最常见的蜘蛛具有以下用户代理:
Mozilla/5.0(兼容;Googlebot/2.1;+ )
所以如果你想告诉这个蜘蛛做什么,一个相对简单的 User-agent: Googlebot 就可以了。
大多数搜索引擎都有多个蜘蛛。他们将使用特定的蜘蛛作为他们的正常索引、广告软件、图像、视频等。
搜索引擎总是会选择他们能找到的最具体的指令块。假设您有 3 组指令:一组用于 *,一组用于 Googlebot 和 Googlebot-News。如果机器人通过其用户代理来自 Googlebot-Video,它将遵循 Googlebot 限制。带有用户代理的机器人 Googlebot-News 将使用更具体的 Googlebot-News 指令。
搜索引擎蜘蛛最常见的User-agent
以下是您可以在 robots.txt 文件中使用的用户代理列表,以匹配最常用的搜索引擎:
搜索引擎领域User-agentBaidu generalbaiduspiderBaidu imagesbaiduspider-imageBaidu mobilebaiduspider-mobileBaidu newsbaiduspider-newsBaidu videobaiduspider-videobing generalbingbotbing general msnbotbing 图片和视频msnbot-mediabing adsadidxbotgoogle General GooglebotGoogle ImagesGooglebot-ImageGoogle MobileGooglebot-MobileGoogle NewsGooglebot-NewsGoogle VideoGooglebot-VideoGoogle AdSenseMediapartners-GoogleGoogle AdWordsAdsBot-Googleya
禁止指令
任何指令块中的第二行是 Disallow 行。您可以使用这些行中的一条或多条来指定指定蜘蛛无法访问站点的哪些部分。一个空的 Disallow 行意味着你没有禁止任何东西,所以基本上它意味着爬虫可以访问你的 网站 的所有部分。
下面的示例将阻止 robots.txt 中的所有“侦听”搜索引擎抓取您的 网站。
用户代理:*
不允许:/
下面的示例只需要少一个字符,就可以让所有搜索引擎抓取您的整个 网站。
用户代理:*
不允许:
以下示例将阻止 Google 抓取您 网站 上的 Photo 目录及其中的所有内容。
用户代理:googlebot
禁止:/照片
这意味着该目录 /Photo 的所有子目录也不会被扩展。由于这些行区分大小写,因此不会阻止 Google 抓取 /photo 目录。
还收录 /Photo 的 URL 也将被阻止,例如 /Photography/。
如何使用通配符/正则表达式
在规范化方面,robots.txt 标准不支持正则表达式或通配符,但是,它被所有主要搜索引擎所理解。这意味着您可以使用以下行阻止文件组:
禁止:/*.php