Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件

优采云发布时间: 2021-08-15 06:00

　　有效地使用 robots.txt

　　robots.txt 文件可以告诉搜索引擎您的网站的哪些部分允许它爬行。这个文件不仅要命名为“robots.txt”，还必须放在你的网站根目录下。

　　网站robots.txt 文件的路径。

　　所有遵循此规则的搜索引擎抓取工具（如通配符 * 所示）不应输入和抓取 /images/ 或任何以 /search 开头的网址中的内容。

　　您可能不希望自己的某些网站页面被抓取，因为如果它们出现在搜索结果中，对用户来说可能没有多大意义。如果您想阻止搜索引擎抓取您的网页，Google网站管理人员有一个非常有用的 robots.txt *敏*感*词*可以帮助您创建此文件。另外，如果希望子域名中的某些内容不被抓取，则需要在子域名目录下新建robots.txt文件。您还可以在我们的网站Admin 帮助中心获取有关 robots.txt 的更多信息。

　　还有其他更方便的方法可以防止您的内容出现在搜索结果中，例如在 robots 元标记中添加“NOINDEX”、使用 htaccess 加密某些目录或使用 Google网站Administrator Tools。删除一些已编入索引的内容。 Google 工程师 Matt Cutts 在帮助视频中粗略介绍了各种网址排除原则。

　　Robots.txt 实践经验

　　对那些敏感内容使用更安全的解决方案 - 使用 robots.txt 来阻止敏感或机密内容。这样做的原因是，如果你在robots.txt中屏蔽的链接出现在互联网上（如来源记录），搜索引擎很可能会引用这些网址（但只是网址，不收录标题或内容）片段））。也有一些不符合机器人排除标准的流氓搜索引擎违反了robots.txt 上的说明。最后，一些好奇的用户会检查你的robots.txt是不是声明被屏蔽的目录或子目录，猜猜你不想被看到。因此，通过 .htaccess 加密内容或实施密码保护是更安全的选择。当然你需要避免：

　　1. 允许抓取看起来像搜索结果的页面。（用户不喜欢给自己丢一个搜索页面，都是没有多大意义的结果。）

　　2.允许爬取大量自动生成的页面，其中大部分是相同的或几乎没有区别的。 “这 10 万个几乎被复制的页面被搜索引擎收录，这有多重要？”

　　3. 允许抓取代理服务器创建的 URL。（来源：Google网站Administrator Blog 翻译：A 想想想录）

　　知识补充：Robots.txt

　　robots.txt（统一小写）是存放在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的机器人（也称为网络蜘蛛）。搜索引擎的机器人无法获取哪些内容，（机器人）可以获取哪些内容。由于某些系统中的 URL 区分大小写，因此 robots.txt 的文件名应统一小写。 robots.txt 应该放在网站的根目录下。如果您想在访问子目录时单独定义搜索引擎机器人的行为，您可以将您的自定义设置合并到根目录下的 robots.txt 中，或者使用机器人元数据。

　　Robots.txt 协议不是规范，而是约定，所以不能保证网站的隐私。注意Robots.txt使用字符串比较来判断是否获取URL，所以目录末尾带和不带斜杠“/”的两种URL表示不同的URL，以及“Disallow:*.gif”等通配符" 不能使用。

　　这个协议不是规范，只是一个约定。通常搜索引擎会识别这个元数据，不会索引这个页面，以及这个页面的链接页面。

0

2021-08-15

谷歌搜索引擎优化初学者指南(官方中文版)

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件

0 个评论

发起人

AI时代内容工厂

Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件

0 个评论

发起人

相关问题