Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件
优采云 发布时间: 2021-08-15 06:00Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件
有效地使用 robots.txt
robots.txt 文件可以告诉搜索引擎您的网站 的哪些部分允许它爬行。这个文件不仅要命名为“robots.txt”,还必须放在你的网站根目录下。
网站robots.txt 文件的路径。
所有遵循此规则的搜索引擎抓取工具(如通配符 * 所示)不应输入和抓取 /images/ 或任何以 /search 开头的网址中的内容。
您可能不希望自己的某些 网站 页面被抓取,因为如果它们出现在搜索结果中,对用户来说可能没有多大意义。如果您想阻止搜索引擎抓取您的网页,Google网站 管理人员有一个非常有用的 robots.txt *敏*感*词*可以帮助您创建此文件。另外,如果希望子域名中的某些内容不被抓取,则需要在子域名目录下新建robots.txt文件。您还可以在我们的 网站Admin 帮助中心获取有关 robots.txt 的更多信息。
还有其他更方便的方法可以防止您的内容出现在搜索结果中,例如在 robots 元标记中添加“NOINDEX”、使用 htaccess 加密某些目录或使用 Google网站Administrator Tools。删除一些已编入索引的内容。 Google 工程师 Matt Cutts 在帮助视频中粗略介绍了各种网址排除原则。
Robots.txt 实践经验
对那些敏感内容使用更安全的解决方案 - 使用 robots.txt 来阻止敏感或机密内容。这样做的原因是,如果你在robots.txt中屏蔽的链接出现在互联网上(如来源记录),搜索引擎很可能会引用这些网址(但只是网址,不收录标题或内容)片段))。也有一些不符合机器人排除标准的流氓搜索引擎违反了robots.txt 上的说明。最后,一些好奇的用户会检查你的robots.txt是不是声明被屏蔽的目录或子目录,猜猜你不想被看到。因此,通过 .htaccess 加密内容或实施密码保护是更安全的选择。当然你需要避免:
1. 允许抓取看起来像搜索结果的页面。 (用户不喜欢给自己丢一个搜索页面,都是没有多大意义的结果。)
2.允许爬取大量自动生成的页面,其中大部分是相同的或几乎没有区别的。 “这 10 万个几乎被复制的页面被搜索引擎收录,这有多重要?”
3. 允许抓取代理服务器创建的 URL。 (来源:Google网站Administrator Blog 翻译:A 想想想录)
知识补充:Robots.txt
robots.txt(统一小写)是存放在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的机器人(也称为网络蜘蛛)。搜索引擎的机器人无法获取哪些内容,(机器人)可以获取哪些内容。由于某些系统中的 URL 区分大小写,因此 robots.txt 的文件名应统一小写。 robots.txt 应该放在网站 的根目录下。如果您想在访问子目录时单独定义搜索引擎机器人的行为,您可以将您的自定义设置合并到根目录下的 robots.txt 中,或者使用机器人元数据。
Robots.txt 协议不是规范,而是约定,所以不能保证网站的隐私。注意Robots.txt使用字符串比较来判断是否获取URL,所以目录末尾带和不带斜杠“/”的两种URL表示不同的URL,以及“Disallow:*.gif”等通配符" 不能使用。
这个协议不是规范,只是一个约定。通常搜索引擎会识别这个元数据,不会索引这个页面,以及这个页面的链接页面。