有效使用robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去

优采云 发布时间: 2021-06-03 00:30

  有效使用robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去

  有效地使用 robots.txt

  robots.txt 文件可以告诉搜索引擎您的网站 的哪些部分允许它爬行。这个文件不仅要命名为robots.txt,还必须放在你的网站根目录下。

  网站robots.txt 文件的路径。

  所有遵循此规则的搜索引擎抓取工具(如通配符 * 所示)不应输入和抓取 /images/ 或任何以 /search 开头的网址中的内容。

  您可能不希望自己的某些 网站 页面被抓取,因为如果它们出现在搜索结果中,对用户来说可能没有多大意义。如果您想阻止搜索引擎抓取您的网页,Google网站management 人员有一个非常有用的 robots.txt *敏*感*词*可以帮助您创建此文件。另外,如果希望子域名中的某些内容不被抓取,则需要在子域名目录下新建robots.txt文件。您也可以在我们的网站Admin Help 北京怀柔区网站建筑公司中心获取更多关于robots.txt的信息。

  还有其他更方便的方法可以防止您的内容出现在搜索结果中,例如在robots meta标签中添加NOINDEX,使用htaccess加密某些目录或使用Google网站Administrator工具删除某些内容已被索引。 Google 工程师 Matt Cutts 在帮助视频中粗略介绍了各种网址排除原则。

  Robots.txt 实践经验

  对敏感内容使用更安全的解决方案,通过 robots.txt 屏蔽敏感或机密内容。这样做的原因是,如果你在robots.txt中屏蔽的那些链接出现在互联网上(如源记录),搜索引擎很可能会引用这些网址(但只是网址,不会收录标题或内容片段。)。也有一些不符合机器人排除标准的流氓搜索引擎违反了robots.txt 上的说明。最后,一些好奇的用户会检查你的robots.txt是不是声明被屏蔽的目录或子目录,猜猜你不想被看到。因此,通过 .htaccess 加密内容或实施密码保护是更安全的选择。当然你需要避免:

  1. 允许抓取看起来像搜索结果的页面。 (用户不喜欢给自己丢一个搜索页面,都是没有多大意义的结果。)

  2.允许爬取大量自动生成的页面,其中大部分是相同的或几乎没有区别的。这10万个几乎被抄袭的页面,被高端网站建索引擎收录,意义何在?

  3. 允许抓取代理服务器创建的 URL。 (来源:Google网站管理博客 翻译:阿雷遐想记录)

  知识补充:Robots.txt

  robots.txt(统一小写)是存放在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的机器人(也称为网络蜘蛛)。搜索引擎的机器人无法获取哪些内容,(机器人)可以获取哪些内容。由于某些系统中的 URL 区分大小写,因此 robots.txt 的文件名应统一小写。 robots.txt 应该放在网站 的根目录下。如果您想单独定义Hangzhou网站建公司搜索引擎的bots访问子目录时的行为,您可以将您的自定义设置合并到根目录下的robots.txt中,或者使用robots metadata。

  Robots.txt 协议不是规范,而是约定,所以网站 的隐私不能得到保证。注意Robots.txt使用字符串比较来判断是否获取URL,所以目录末尾有且没有斜线/这两个代表不同的URL,不能使用“Disallow:*.gif”等通配符。

  本协议不是规范,只是一种约定。通常搜索引擎会识别这个元数据并且不会索引这个页面,以及这个页面的链接页面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线