搜索引擎优化含义(【】阻止机器人.txt的所有文件())

优采云 发布时间: 2021-09-30 08:21

  搜索引擎优化含义(【】阻止机器人.txt的所有文件())

  用户代理: *

  不允许: /

  每当他们访问网站 时,他们都会检查robots.txt 文件。一旦robots.txt文件的规则上传到站点根目录并且机器人进入站点,robots.txt文件中的规则就会生效。访问频率根据人气、权限、内容更新频率不同,机器人蜘蛛网的频率也不同。一些网站可能一天被抓取多次,而另一些网站可能一周只抓取几次。

  一些先进的技术

  各大搜索引擎已经开始合作推进robots.txt文件的功能。如上所述,各大搜索引擎都采用了一些功能,不一定是所有主流引擎,以更好地控制抓取。由于这些可能会受到限制,请谨慎使用。

  ◆ 爬行延迟:

  一些网站可能会遇到大量的流量,想要让搜索引擎蜘蛛慢下来,让更多的服务器资源满足常规流量的需求。Crawl delay 是 Yahoo、Live Search 和 Ask 识别的特殊命令,它指示爬虫在爬取页面之间以秒为单位等待:

  用户代理:msnbot

  爬行延迟:5

  ◆ 模式匹配

  模式匹配现在似乎可用于:Google、Yahoo 和 Live Search。模式匹配的价值是可观的。我们先来看看最基本的模式匹配,使用星号通配符。阻止访问所有以“private”开头的子目录:

  用户代理:Googlebot

  禁止:/私人*/

  您可以使用美元符号 ($) 来匹配字符串的结尾。例如,要阻止以 .asp 结尾的 URL:

  用户代理:Googlebot

  禁止:/*.asp$

  与在 Perl 和其他地方的正则表达式中发现的更高级的模式匹配不同,问号没有特殊的力量。因此,要阻止访问所有收录问号 (?) 的 URL,只需使用问号(无需“转义”或使用反斜杠):

  用户代理: *

  不允许: /*?*

  防止机器人抓取特定文件类型(例如 .gif)的所有文件:

  用户代理: *

  禁止:/*.gif$

  这是一个更复杂的例子。假设您的站点仅使用查询字符串部分中的 URL(“?”),仅用于会话 ID,并且您希望排除所有收录动态参数的 URL,以确保机器人不会抓取重复的页面。但您可能希望收录任何以“?”结尾的 URL。这是它的实现方式:

  用户代理:Slurp

  不允许: /*?# 阻止收录一个的 URL

  Allow: /*?$ # 允许所有以 a 结尾的 URL

  ◆ 允许指令:

  听起来,它与 Disallow 指令相反,它提供了专门调用可能被抓取的目录或页面的能力。在大部分或整个场地被禁止后,这可能是有益的。

  要允许 Googlebot 仅进入“google”目录:

  用户代理:Googlebot

  不允许: /

  允许:/谷歌/

  ◆ 无索引指令:

  该指令提供了从搜索结果中消除无标题和无标题列表的优势,但仅限于 Google。它的语法完全反映了 Disallow。用马特·卡茨的话来说:

  Google 允许在 robots.txt 中使用 NOINDEX 指令,这将从 Google 中彻底删除所有匹配的网站网址。(此行为可能会根据此政策讨论而改变,当然这也是我们尚未讨论此问题的原因。)

  ◆ 网站地图:

  XML网站 映射文件可以告诉搜索引擎关于您的 网站 上的所有页面,并可选择提供有关这些页面的信息,例如哪些是最重要的以及它们的更改频率。它充当自动发现机制,允许蜘蛛查找 XML 站点地图文件。您可以通过在 robots.txt 文件中添加以下行来告诉 Google 和其他搜索引擎您的站点地图:

  站点地图:sitemap_location

  sitemap_location 是站点地图的完整 URL。这个命令和User-agent行没有关系,所以放在什么地方没有关系,但一般放在最后。所有主要搜索引擎都支持 Auto-Discovery Sitemap 协议,包括 Google、Yahoo、Live Search 和 Ask。

  虽然自动发现提供了一种方法来通知搜索引擎有关 sitemap.xml 文件的信息,但它也值得通过它的每个 网站管理控制台(Google网站管理中心,Yahoo网站浏览器,实时搜索网站管理员中心)直接验证并提交站点地图到搜索引擎。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线