博客搜索引擎优化(禁止爬寻require目录下面的目录和目录/ABC/这里定义)

优采云发布时间: 2021-09-29 11:32

　　这是第一条微博。是自我探索seo优化的记录。后来，它可以被视为一个笔记。我主要负责我公司的网站。我是唯一负责网络的人。我走路的时候可能会很孤独。不过，网上的资源和优秀的大牌对我帮助很大。

　　robots.txt 可以在 ftp 根目录中找到。这是协议，不是命令。robots.txt是搜索引擎访问网站时首先要检查的文件。robots.txt 文件告诉蜘蛛可以在服务器上查看哪些文件。百度官方建议，只有当您的网站收录您不想被收录搜索的内容时，才需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容，请不要创建robots.txt文件。

　　如果把网站想象成酒店的房间，robots.txt就是房东挂在房间门口的“请勿打扰”或“欢迎打扫”的牌子。该文件告诉访问搜索引擎哪些房间可以进入和访问，哪些房间因为存放贵重物品，或者可能涉及居民和访客的隐私而对搜索引擎不开放。但是robots.txt不是命令，也不是防火墙，就像看门人无法阻止小偷等恶意入侵者一样。

　　文件写入

　　User-agent: * 其中*代表所有类型的搜索引擎，*是通配符

　　Disallow: /admin/ 这里的定义是禁止爬取admin

　　Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

　　Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

　　禁止：/cgi-bin

　　要阻止访问所有收录问号 (?) 的 URL，请使用以下条目：

　　用户代理： *

　　不允许： /*？*

　　使用 $ 匹配 URL 的结尾

　　您可以使用 $ 字符

　　指定与 URL 的结束字符匹配。例如，要阻止以 .asp 结尾的 URL，请使用以下条目：User-agent:Googlebot

　　禁止：/*.asp$

　　您可以将此模式与 Allow 指令匹配使用。例如，如果？代表一个会话 ID，您可以排除所有收录该 ID 的网址，以确保 Googlebot 不会抓取重复的页面。但是，网址以什么结尾？可能是您要收录的页面版本。在这种情况下，您可以按如下方式设置 robots.txt 文件：

　　用户代理： *

　　允许：/*?$

　　不允许： /*？

　　不允许： / *？

　　一行将阻止收录？（具体来说，它将阻止所有以您的域名开头，后跟任何字符串，然后是问号 (?)，然后是任何字符串的 URL）。

　　Allow: /*?$ 一行将允许任何以? （具体来说，它将允许所有以您的域名开头，后跟任何字符串，然后是问号 (?) 的 URL，问号 URL 后没有任何字符）。

　　虽然robots.txt已经存在多年，但各大搜索引擎对它的解读却有着细微的差别。谷歌和百度都在其网站管理员工具中提供了机器人工具。如果你写过robots.txt文件，建议你在两个工具中都测试一下，因为两者的解析实现确实略有不同[1]

　　.

　　其他属性

　　1. Robot-version：用于指定robot协议的版本号

　　示例：机器人版本：版本 2.0

　　2.Crawl-delay：雅虎YST的一个特定扩展，可以用来为我们的爬虫设置一个较低的爬取请求频率。可以添加 Crawl-delay:xx 指令，其中“XX”是指爬虫程序两次进入站点的最小延迟时间，单位为秒。

　　3. Visit-time：只有在visit-time指定的时间段内，机器人才能访问指定的URL，否则无法访问。

　　Example: Visit-time: 0100-1300 #允许早上1:00到13:00访问

　　4. Request-rate：用于限制URL读取的频率

　　示例：请求率：40/1m 0100-0759 在 1:00 和 07:59 之间，访问频率为每分钟 40 次

　　请求率：12/1m 0800-1300 在 8:00 到 13:00 之间，频率为每分钟 12 次访问

　　标签

　　Robots.txt 文件主要是限制搜索引擎对整个站点或目录的访问，而RobotsMeta 标签主要是针对特定页面的。和其他 META 标签

　　（如使用的语言、页面的描述、关键词等）RobotsMeta标签也放置在页面上，专门告诉搜索引擎ROBOTS如何抓取页面内容。

　　RobotsMeta标签没有大小写区分，name=”Robots”表示所有搜索引擎，对于特定的搜索引擎可以写成name=”BaiduSpider”。内容部分有四个命令选项：index、noindex、follow 和 nofollow。命令以“,”分隔。

　　index指令告诉搜索机器人抓取页面；

　　以下指令表示搜索机器人可以继续沿着页面上的链接爬行；

　　RobotsMeta标签默认值为index和follow，inktomi除外。对于它，默认值为index和nofollow

　　.

　　预防措施

　　以上robots.txt和Robots Meta标签限制搜索引擎robots

　　(ROBOTS) 抓取网站内容的方法只是规则，需要搜索引擎机器人的配合，并不是每个ROBOTS都遵守。目前看来，大部分搜索引擎robots都遵守robots.txt的规则，而对于RobotsMETA标签，支持的并不多，但在逐渐增加。比如知名搜索引擎GOOGLE就完全支持，GOOGLE增加了一个命令“archive”可以限制GOOGLE是否保留网页快照。

0

2021-09-29

博客搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

博客搜索引擎优化(禁止爬寻require目录下面的目录和目录/ABC/这里定义)

0 个评论

发起人

AI时代内容工厂

博客搜索引擎优化(禁止爬寻require目录下面的目录和目录/ABC/这里定义)

0 个评论

发起人

相关问题