搜索引擎优化含义(【】阻止机器人.txt的所有文件（）)

优采云发布时间: 2021-09-30 08:21

　　用户代理： *

　　不允许： /

　　每当他们访问网站时，他们都会检查robots.txt 文件。一旦robots.txt文件的规则上传到站点根目录并且机器人进入站点，robots.txt文件中的规则就会生效。访问频率根据人气、权限、内容更新频率不同，机器人蜘蛛网的频率也不同。一些网站可能一天被抓取多次，而另一些网站可能一周只抓取几次。

　　一些先进的技术

　　各大搜索引擎已经开始合作推进robots.txt文件的功能。如上所述，各大搜索引擎都采用了一些功能，不一定是所有主流引擎，以更好地控制抓取。由于这些可能会受到限制，请谨慎使用。

　　◆ 爬行延迟：

　　一些网站可能会遇到大量的流量，想要让搜索引擎蜘蛛慢下来，让更多的服务器资源满足常规流量的需求。Crawl delay 是 Yahoo、Live Search 和 Ask 识别的特殊命令，它指示爬虫在爬取页面之间以秒为单位等待：

　　用户代理：msnbot

　　爬行延迟：5

　　◆ 模式匹配

　　模式匹配现在似乎可用于：Google、Yahoo 和 Live Search。模式匹配的价值是可观的。我们先来看看最基本的模式匹配，使用星号通配符。阻止访问所有以“private”开头的子目录：

　　用户代理：Googlebot

　　禁止：/私人*/

　　您可以使用美元符号 ($) 来匹配字符串的结尾。例如，要阻止以 .asp 结尾的 URL：

　　用户代理：Googlebot

　　禁止：/*.asp$

　　与在 Perl 和其他地方的正则表达式中发现的更高级的模式匹配不同，问号没有特殊的力量。因此，要阻止访问所有收录问号 (?) 的 URL，只需使用问号（无需“转义”或使用反斜杠）：

　　用户代理： *

　　不允许： /*？*

　　防止机器人抓取特定文件类型（例如 .gif）的所有文件：

　　用户代理： *

　　禁止：/*.gif$

　　这是一个更复杂的例子。假设您的站点仅使用查询字符串部分中的 URL（“？”），仅用于会话 ID，并且您希望排除所有收录动态参数的 URL，以确保机器人不会抓取重复的页面。但您可能希望收录任何以“?”结尾的 URL。这是它的实现方式：

　　用户代理：Slurp

　　不允许： /*？# 阻止收录一个的 URL

　　Allow: /*?$ # 允许所有以 a 结尾的 URL

　　◆ 允许指令：

　　听起来，它与 Disallow 指令相反，它提供了专门调用可能被抓取的目录或页面的能力。在大部分或整个场地被禁止后，这可能是有益的。

　　要允许 Googlebot 仅进入“google”目录：

　　用户代理：Googlebot

　　不允许： /

　　允许：/谷歌/

　　◆ 无索引指令：

　　该指令提供了从搜索结果中消除无标题和无标题列表的优势，但仅限于 Google。它的语法完全反映了 Disallow。用马特·卡茨的话来说：

　　Google 允许在 robots.txt 中使用 NOINDEX 指令，这将从 Google 中彻底删除所有匹配的网站网址。（此行为可能会根据此政策讨论而改变，当然这也是我们尚未讨论此问题的原因。）

　　◆ 网站地图：

　　XML网站映射文件可以告诉搜索引擎关于您的网站上的所有页面，并可选择提供有关这些页面的信息，例如哪些是最重要的以及它们的更改频率。它充当自动发现机制，允许蜘蛛查找 XML 站点地图文件。您可以通过在 robots.txt 文件中添加以下行来告诉 Google 和其他搜索引擎您的站点地图：

　　站点地图：sitemap_location

　　sitemap_location 是站点地图的完整 URL。这个命令和User-agent行没有关系，所以放在什么地方没有关系，但一般放在最后。所有主要搜索引擎都支持 Auto-Discovery Sitemap 协议，包括 Google、Yahoo、Live Search 和 Ask。

　　虽然自动发现提供了一种方法来通知搜索引擎有关 sitemap.xml 文件的信息，但它也值得通过它的每个网站管理控制台（Google网站管理中心，Yahoo网站浏览器，实时搜索网站管理员中心）直接验证并提交站点地图到搜索引擎。

0

2021-09-30

搜索引擎优化含义

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化含义(【】阻止机器人.txt的所有文件（）)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化含义(【】阻止机器人.txt的所有文件（）)

0 个评论

发起人

相关问题