有效使用robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去

优采云发布时间: 2021-06-03 00:30

　　有效地使用 robots.txt

　　robots.txt 文件可以告诉搜索引擎您的网站的哪些部分允许它爬行。这个文件不仅要命名为robots.txt，还必须放在你的网站根目录下。

　　网站robots.txt 文件的路径。

　　所有遵循此规则的搜索引擎抓取工具（如通配符 * 所示）不应输入和抓取 /images/ 或任何以 /search 开头的网址中的内容。

　　您可能不希望自己的某些网站页面被抓取，因为如果它们出现在搜索结果中，对用户来说可能没有多大意义。如果您想阻止搜索引擎抓取您的网页，Google网站management 人员有一个非常有用的 robots.txt *敏*感*词*可以帮助您创建此文件。另外，如果希望子域名中的某些内容不被抓取，则需要在子域名目录下新建robots.txt文件。您也可以在我们的网站Admin Help 北京怀柔区网站建筑公司中心获取更多关于robots.txt的信息。

　　还有其他更方便的方法可以防止您的内容出现在搜索结果中，例如在robots meta标签中添加NOINDEX，使用htaccess加密某些目录或使用Google网站Administrator工具删除某些内容已被索引。 Google 工程师 Matt Cutts 在帮助视频中粗略介绍了各种网址排除原则。

　　Robots.txt 实践经验

　　对敏感内容使用更安全的解决方案，通过 robots.txt 屏蔽敏感或机密内容。这样做的原因是，如果你在robots.txt中屏蔽的那些链接出现在互联网上（如源记录），搜索引擎很可能会引用这些网址（但只是网址，不会收录标题或内容片段。）。也有一些不符合机器人排除标准的流氓搜索引擎违反了robots.txt 上的说明。最后，一些好奇的用户会检查你的robots.txt是不是声明被屏蔽的目录或子目录，猜猜你不想被看到。因此，通过 .htaccess 加密内容或实施密码保护是更安全的选择。当然你需要避免：

　　1. 允许抓取看起来像搜索结果的页面。（用户不喜欢给自己丢一个搜索页面，都是没有多大意义的结果。）

　　2.允许爬取大量自动生成的页面，其中大部分是相同的或几乎没有区别的。这10万个几乎被抄袭的页面，被高端网站建索引擎收录，意义何在？

　　3. 允许抓取代理服务器创建的 URL。（来源：Google网站管理博客翻译：阿雷遐想记录）

　　知识补充：Robots.txt

　　robots.txt（统一小写）是存放在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的机器人（也称为网络蜘蛛）。搜索引擎的机器人无法获取哪些内容，（机器人）可以获取哪些内容。由于某些系统中的 URL 区分大小写，因此 robots.txt 的文件名应统一小写。 robots.txt 应该放在网站的根目录下。如果您想单独定义Hangzhou网站建公司搜索引擎的bots访问子目录时的行为，您可以将您的自定义设置合并到根目录下的robots.txt中，或者使用robots metadata。

　　Robots.txt 协议不是规范，而是约定，所以网站的隐私不能得到保证。注意Robots.txt使用字符串比较来判断是否获取URL，所以目录末尾有且没有斜线/这两个代表不同的URL，不能使用“Disallow:*.gif”等通配符。

　　本协议不是规范，只是一种约定。通常搜索引擎会识别这个元数据并且不会索引这个页面，以及这个页面的链接页面。

0

2021-06-03

百度互联网创业者*敏*感*词*搜索引擎优化指南

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

有效使用robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去

0 个评论

发起人

AI时代内容工厂

有效使用robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去

0 个评论

发起人

相关问题