搜索引擎优化含义(【】阻止机器人.txt的所有文件())
优采云 发布时间: 2021-09-30 08:21搜索引擎优化含义(【】阻止机器人.txt的所有文件())
用户代理: *
不允许: /
每当他们访问网站 时,他们都会检查robots.txt 文件。一旦robots.txt文件的规则上传到站点根目录并且机器人进入站点,robots.txt文件中的规则就会生效。访问频率根据人气、权限、内容更新频率不同,机器人蜘蛛网的频率也不同。一些网站可能一天被抓取多次,而另一些网站可能一周只抓取几次。
一些先进的技术
各大搜索引擎已经开始合作推进robots.txt文件的功能。如上所述,各大搜索引擎都采用了一些功能,不一定是所有主流引擎,以更好地控制抓取。由于这些可能会受到限制,请谨慎使用。
◆ 爬行延迟:
一些网站可能会遇到大量的流量,想要让搜索引擎蜘蛛慢下来,让更多的服务器资源满足常规流量的需求。Crawl delay 是 Yahoo、Live Search 和 Ask 识别的特殊命令,它指示爬虫在爬取页面之间以秒为单位等待:
用户代理:msnbot
爬行延迟:5
◆ 模式匹配
模式匹配现在似乎可用于:Google、Yahoo 和 Live Search。模式匹配的价值是可观的。我们先来看看最基本的模式匹配,使用星号通配符。阻止访问所有以“private”开头的子目录:
用户代理:Googlebot
禁止:/私人*/
您可以使用美元符号 ($) 来匹配字符串的结尾。例如,要阻止以 .asp 结尾的 URL:
用户代理:Googlebot
禁止:/*.asp$
与在 Perl 和其他地方的正则表达式中发现的更高级的模式匹配不同,问号没有特殊的力量。因此,要阻止访问所有收录问号 (?) 的 URL,只需使用问号(无需“转义”或使用反斜杠):
用户代理: *
不允许: /*?*
防止机器人抓取特定文件类型(例如 .gif)的所有文件:
用户代理: *
禁止:/*.gif$
这是一个更复杂的例子。假设您的站点仅使用查询字符串部分中的 URL(“?”),仅用于会话 ID,并且您希望排除所有收录动态参数的 URL,以确保机器人不会抓取重复的页面。但您可能希望收录任何以“?”结尾的 URL。这是它的实现方式:
用户代理:Slurp
不允许: /*?# 阻止收录一个的 URL
Allow: /*?$ # 允许所有以 a 结尾的 URL
◆ 允许指令:
听起来,它与 Disallow 指令相反,它提供了专门调用可能被抓取的目录或页面的能力。在大部分或整个场地被禁止后,这可能是有益的。
要允许 Googlebot 仅进入“google”目录:
用户代理:Googlebot
不允许: /
允许:/谷歌/
◆ 无索引指令:
该指令提供了从搜索结果中消除无标题和无标题列表的优势,但仅限于 Google。它的语法完全反映了 Disallow。用马特·卡茨的话来说:
Google 允许在 robots.txt 中使用 NOINDEX 指令,这将从 Google 中彻底删除所有匹配的网站网址。(此行为可能会根据此政策讨论而改变,当然这也是我们尚未讨论此问题的原因。)
◆ 网站地图:
XML网站 映射文件可以告诉搜索引擎关于您的 网站 上的所有页面,并可选择提供有关这些页面的信息,例如哪些是最重要的以及它们的更改频率。它充当自动发现机制,允许蜘蛛查找 XML 站点地图文件。您可以通过在 robots.txt 文件中添加以下行来告诉 Google 和其他搜索引擎您的站点地图:
站点地图:sitemap_location
sitemap_location 是站点地图的完整 URL。这个命令和User-agent行没有关系,所以放在什么地方没有关系,但一般放在最后。所有主要搜索引擎都支持 Auto-Discovery Sitemap 协议,包括 Google、Yahoo、Live Search 和 Ask。
虽然自动发现提供了一种方法来通知搜索引擎有关 sitemap.xml 文件的信息,但它也值得通过它的每个 网站管理控制台(Google网站管理中心,Yahoo网站浏览器,实时搜索网站管理员中心)直接验证并提交站点地图到搜索引擎。