博客搜索引擎优化(禁止爬寻require目录下面的目录和目录/ABC/这里定义)

优采云 发布时间: 2021-09-29 11:32

  博客搜索引擎优化(禁止爬寻require目录下面的目录和目录/ABC/这里定义)

  这是第一条微博。是自我探索seo优化的记录。后来,它可以被视为一个笔记。我主要负责我公司的网站。我是唯一负责网络的人。我走路的时候可能会很孤独。不过,网上的资源和优秀的大牌对我帮助很大。

  robots.txt 可以在 ftp 根目录中找到。这是协议,不是命令。robots.txt是搜索引擎访问网站时首先要检查的文件。robots.txt 文件告诉蜘蛛可以在服务器上查看哪些文件。百度官方建议,只有当您的网站收录您不想被收录搜索的内容时,才需要使用robots.txt文件。如果您想要搜索引擎收录网站上的所有内容,请不要创建robots.txt文件。

  如果把网站想象成酒店的房间,robots.txt就是房东挂在房间门口的“请勿打扰”或“欢迎打扫”的牌子。该文件告诉访问搜索引擎哪些房间可以进入和访问,哪些房间因为存放贵重物品,或者可能涉及居民和访客的隐私而对搜索引擎不开放。但是robots.txt不是命令,也不是防火墙,就像看门人无法阻止小偷等恶意入侵者一样。

  文件写入

  User-agent: * 其中*代表所有类型的搜索引擎,*是通配符

  Disallow: /admin/ 这里的定义是禁止爬取admin

  目录下的目录

  Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

  Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

  禁止:/cgi-bin

  要阻止访问所有收录问号 (?) 的 URL,请使用以下条目:

  用户代理: *

  不允许: /*?*

  使用 $ 匹配 URL 的结尾

  您可以使用 $ 字符

  指定与 URL 的结束字符匹配。例如,要阻止以 .asp 结尾的 URL,请使用以下条目:User-agent:Googlebot

  禁止:/*.asp$

  您可以将此模式与 Allow 指令匹配使用。例如,如果?代表一个会话 ID,您可以排除所有收录该 ID 的网址,以确保 Googlebot 不会抓取重复的页面。但是,网址以什么结尾?可能是您要收录的页面版本。在这种情况下,您可以按如下方式设置 robots.txt 文件:

  用户代理: *

  允许:/*?$

  不允许: /*?

  不允许: / *?

  一行将阻止收录?(具体来说,它将阻止所有以您的域名开头,后跟任何字符串,然后是问号 (?),然后是任何字符串的 URL)。

  Allow: /*?$ 一行将允许任何以? (具体来说,它将允许所有以您的域名开头,后跟任何字符串,然后是问号 (?) 的 URL,问号 URL 后没有任何字符)。

  虽然robots.txt已经存在多年,但各大搜索引擎对它的解读却有着细微的差别。谷歌和百度都在其网站管理员工具中提供了机器人工具。如果你写过robots.txt文件,建议你在两个工具中都测试一下,因为两者的解析实现确实略有不同[1]

  .

  其他属性

  1. Robot-version:用于指定robot协议的版本号

  示例:机器人版本:版本 2.0

  2.Crawl-delay:雅虎YST的一个特定扩展,可以用来为我们的爬虫设置一个较低的爬取请求频率。可以添加 Crawl-delay:xx 指令,其中“XX”是指爬虫程序两次进入站点的最小延迟时间,单位为秒。

  3. Visit-time:只有在visit-time指定的时间段内,机器人才能访问指定的URL,否则无法访问。

  Example: Visit-time: 0100-1300 #允许早上1:00到13:00访问

  4. Request-rate:用于限制URL读取的频率

  示例:请求率:40/1m 0100-0759 在 1:00 和 07:59 之间,访问频率为每分钟 40 次

  请求率:12/1m 0800-1300 在 8:00 到 13:00 之间,频率为每分钟 12 次访问

  标签

  Robots.txt 文件主要是限制搜索引擎对整个站点或目录的访问,而RobotsMeta 标签主要是针对特定页面的。和其他 META 标签

  (如使用的语言、页面的描述、关键词等)RobotsMeta标签也放置在页面上,专门告诉搜索引擎ROBOTS如何抓取页面内容。

  RobotsMeta标签没有大小写区分,name=”Robots”表示所有搜索引擎,对于特定的搜索引擎可以写成name=”BaiduSpider”。内容部分有四个命令选项:index、noindex、follow 和 nofollow。命令以“,”分隔。

  index指令告诉搜索机器人抓取页面;

  以下指令表示搜索机器人可以继续沿着页面上的链接爬行;

  RobotsMeta标签默认值为index和follow,inktomi除外。对于它,默认值为index和nofollow

  .

  预防措施

  以上robots.txt和Robots Meta标签限制搜索引擎robots

  (ROBOTS) 抓取网站内容的方法只是规则,需要搜索引擎机器人的配合,并不是每个ROBOTS都遵守。目前看来,大部分搜索引擎robots都遵守robots.txt的规则,而对于RobotsMETA标签,支持的并不多,但在逐渐增加。比如知名搜索引擎GOOGLE就完全支持,GOOGLE增加了一个命令“archive”可以限制GOOGLE是否保留网页快照。

  ​

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线