seo搜索引擎优化指南(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)
优采云 发布时间: 2021-11-07 23:09seo搜索引擎优化指南(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)
有效地使用 robots.txt
robots.txt 文件可以告诉搜索引擎您的 网站 的哪些部分允许它爬行。这个文件不仅要命名为“robots.txt”,还必须放在你的网站的根目录下。
网站robots.txt 文件的路径。
所有遵循此规则的搜索引擎爬虫(如通配符 * 所示)不应输入和爬取 /images/ 或任何以 /search 开头的网址。
您可能不希望自己的某些 网站 页面被抓取,因为如果它们出现在搜索结果中,对用户来说可能没有多大意义。如果你想阻止搜索引擎抓取你的网页,谷歌的管理人员有一个非常有用的 robots.txt *敏*感*词*来帮助你创建这个文件。另外,如果希望子域名中的某些内容不被抓取,则需要在子域名目录下新建robots.txt文件。您还可以在我们的网站管理员帮助中心获取有关 robots.txt 的更多信息。
还有其他更方便的方法可以防止你的内容出现在搜索结果中,比如在robots meta标签中添加“NOINDEX”,使用htaccess加密一些目录或者使用谷歌网站管理员工具移动除了一些已编入索引的内容。谷歌工程师 Matt Cutts 在一个帮助视频中粗略介绍了各种 URL 排除原则的注意事项。
Robots.txt 实践经验
对那些敏感内容使用更安全的解决方案 - 使用 robots.txt 来阻止敏感或机密内容。这样做的原因是,如果你在robots.txt中屏蔽的那些链接出现在互联网上(如源记录),搜索引擎很可能会引用这些网址(但只是网址,不会收录标题或内容片段。)。也有一些不符合机器人排除标准的流氓搜索引擎违反了robots.txt 上的说明。最后,一些好奇的用户会检查你的robots.txt是不是声明被屏蔽的目录或子目录,猜猜你不想被看到。因此,通过 .htaccess 加密内容或实施密码保护是更安全的选择。当然你需要避免:
1. 允许抓取看起来像搜索结果的页面。
2. 允许爬取大量自动生成的页面,其中大部分是相同的或几乎没有区别的。“这10万个几乎被复制的页面被搜索引擎索引,这有多重要?”
3. 允许抓取代理服务器创建的 URL。
知识补充:Robots.txt
robots.txt(统一小写)是存放在网站根目录下的ASCII编码文本文件。它通常告诉网络搜索引擎的机器人(也称为网络蜘蛛),在这个网站中哪些内容是搜索引擎机器人无法获取的,哪些内容可以由(机器人)获取。由于某些系统中的 URL 区分大小写,因此 robots.txt 的文件名应统一小写。robots.txt应该放在网站的根目录下。如果您想单独定义搜索引擎机器人访问子目录时的行为,您可以将您的自定义设置合并到根目录下的 robots.txt 中,或者使用机器人元数据。
Robots.txt 协议不是规范,而是约定,因此不保证网站的隐私。注意Robots.txt使用字符串比较来判断是否获取URL,所以目录末尾带和不带斜杠“/”的两种URL表示不同的URL,以及“Disallow:*.gif”等通配符“ 不能使用。
该协议不是规范,而只是一种约定。通常搜索引擎会识别这个元数据并且不会索引这个页面,以及这个页面的链接页面。
----想知道谷歌官方《搜索引擎优化指南》网络蜘蛛篇_SEO优化技巧分享,更多关注seo优化教程