网站内容添加(2021-09-27Robots.txt的原理、作用、语法、使用)
优采云 发布时间: 2021-12-16 04:42网站内容添加(2021-09-27Robots.txt的原理、作用、语法、使用)
2021年9月27日,今天主要分享Robots.txt的原理、功能、语法和使用。
一、Robots.txt 是什么?
Robots是纯文本文件,网站管理人员可以声明网站是否被搜索引擎访问或指定搜索引擎只收录指定的网站内容;搜索引擎 也称为搜索机器人和蜘蛛程序。当访问一个站点时,它会首先检查站点根域中是否有robots.txt文件。如果文件存在于根域,则根据文件内容搜索robots或spider程序,确定访问范围;如果根域下不存在该文件,搜索机器人将沿着链接爬行。
二、机器人角色三、机器人语法
三种语法如下:
1、用户代理:(定义搜索引擎)
例子:
用户代理:*(定义所有搜索引擎)
User-agent:Googlebot(定义谷歌,只允许谷歌蜘蛛抓取)
User-agent:Baiduspider(定义百度,只允许百度蜘蛛爬取)
不同搜索引擎的搜索机器人名称不同,谷歌:Googlebot,百度:Baiduspider,MSN:MSNbot,雅虎:Slurp。
2、Disallow:(用于定义禁止蜘蛛爬取的页面或目录)
例子:
Disallow:/(禁止蜘蛛爬取网站的所有目录,“/”表示根目录)
Disallow: /admin (禁止蜘蛛爬取admin目录)
Disallow: /abc.html(禁止蜘蛛爬到abc.html页面)
Disallow: /help.html(禁止蜘蛛爬到help.html页面)
3、Allow:(用于定义允许蜘蛛爬取的页面或子目录)
例子:
Allow:/admin/test/(允许蜘蛛爬取admin下的test目录)
允许:/admin/abc.html(允许蜘蛛爬到admin目录下的abc.html页面)
这两个通配符如下:
4、匹配字符“$”
$ 通配符:匹配 URL 末尾的字符
5、通配符“*”
* 通配符:匹配0个或多个任意字符
四、机器人的使用
1、禁止搜索引擎抓取特定目录
在这个例子中,网站有三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。
用户代理: *
禁止:/管理员/
禁止:/tmp/
禁止:/abc/
2、禁止admin目录,但是允许爬取admin目录下的seo子目录
用户代理: *
允许:/admin/seo/
禁止:/管理员/
3、禁止抓取/abc/目录(包括子目录)中所有后缀为“.htm”的URL
用户代理: *
禁止:/abc/*.htm$
4、禁止抓取网站中的所有动态页面
用户代理: *
不允许: /?
用“?”阻止所有文件,以便阻止所有动态路径。
5、百度蜘蛛禁止爬取网站所有图片:
用户代理:百度蜘蛛
禁止:/.jpg$
禁止:/.jpeg$
禁止:/.gif$
禁止:/.png$
禁止:/*.bmp$
6、为了防止 网站 页面被抓取,同时仍然在这些页面上展示 AdSense 广告
用户代理: *
禁止:/folder1/
用户代理:Mediapartners-Google
允许:/folder1/
请禁止除 Mediapartners-Google 之外的所有机器人。这可以防止页面出现在搜索结果中,同时允许 Mediapartners-Google 机器人分析页面以确定显示哪些广告。Mediapartners-Google 机器人不会与其他 Google 用户代理共享网页。