robots文件里写的各种内容,代表了什么样的含义?

优采云 发布时间: 2021-06-24 21:20

  robots文件里写的各种内容,代表了什么样的含义?

  对于站长朋友来说,在开始优化网站之前,会忽略一个很重要的点,就是网站上的robots文件。 robots文件的作用就是告诉搜索引擎蜘蛛这个网站上什么内容可以爬取,哪些内容禁止爬取。 robots文件创建完成后,放到网站ftp的根目录下,就大功告成了。那么,robots文件中写的各种内容的含义是什么?那我们就来了解一下吧!

  User-agent 禁止访问爬虫系列:

  用户代理:*

  这里的*good是通配符,表示所有搜索引擎都可以抓取,包括百度、搜狗、360等

  禁止:/

  意思是禁止蜘蛛爬取这个网站的任何目录

  禁止:/123

  表示禁止蜘蛛爬取网站123及123级别以下的所有内容

  禁止:/123/

  意思是禁止蜘蛛爬取123级以下的所有内容,但可以爬取123页的内容。

  禁止:/*.png

  意思是禁止蜘蛛抓取网站上所有png格式的图片,要禁止抓取其他格式的图片。比如要禁止网站jpg格式图片的抓取,写入方式为Disallow:/*.jpg

  禁止:/123/*.png

  禁止蜘蛛访问123级别以下的png图片,其他格式也一样写

  不允许:/*? *

  禁止蜘蛛抓取网站上的所有动态网址页面

  禁止:/123/*? *

  禁止爬虫爬取网站上123目录下的所有动态页面,不影响爬取网站123目录下的其他内容

  Allow 允许抓取访问系列:

  Allow 表示允许蜘蛛访问爬行。写robots文件时一定要注意一件事,就是写的时候一定要把allow放在disallow之前,以免受到disallow的影响。其他写法请参考disallow写法,字数不加。

  有一点需要注意,大家在使用的时候一定要注意。 robots.txt 文件的名称必须是小写,而不是大写。有了完整的robots文件,搜索引擎抓取会更方便,有利于网站的改进。

  /web/UploadFiles_1049/201908/2019080609023206.jpg

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线