如何使用robots.txt.文件的使用方法
优采云 发布时间: 2021-04-26 18:23如何使用robots.txt.文件的使用方法
robots.txt是存储在站点根目录中的纯文本文件(文件名必须使用小写字母)。尽管其设置非常简单,但是其效果却非常强大。它可以指定搜索引擎蜘蛛仅对指定内容进行爬网,也可以禁止搜索引擎蜘蛛对网站的全部或部分内容进行爬网。
使用方法:
Robots.txt文件应放置在网站的根目录中,并且可以通过Internet访问该文件。
例如:如果您的网站地址是,则必须能够打开该文件并查看其中的内容。
格式:
用户代理:
用于描述搜索引擎蜘蛛的名称。在“ Robots.txt”文件中,如果有多个用户代理记录,则意味着多个搜索引擎蜘蛛将受该协议的限制。对于此文件,至少必须有一个用户代理记录。如果此项的值设置为*,则该协议对任何搜索引擎蜘蛛有效。在“ Robots.txt”文件中,只能有一条记录,例如“ User-agent:*”。
不允许:
用于描述您不想访问的URL。此URL可以是完整路径,也可以是完整路径的一部分。 Robot不会访问任何以Disallow开头的URL。
示例:
示例1:“不允许:/ help”表示搜索引擎蜘蛛不允许对/help.html和/help/index.html进行爬网。
示例2:“不允许:/ help /”表示允许搜索引擎蜘蛛抓取/help.html,但不能抓取/help/index.html。
示例3:如果Disallow记录为空,则表示此网站的所有页面都允许搜索引擎进行爬网。 “ /robots.txt”文件中必须至少有一个Disallow记录。如果“ /robots.txt”为空文件,则对于所有搜索引擎蜘蛛,此网站都是打开的,可以抓取。
#:Robots.txt协议中的注释字符。
综合示例:
示例1:使用“ /robots.txt”禁止所有搜索引擎蜘蛛抓取“ / bin / cgi /”目录,“ / tmp /”目录和/foo.html文件,设置方法为如下:
用户代理:*
不允许:/ bin / cgi /
不允许:/ tmp /
不允许:/foo.html
示例2:通过“ /robots.txt”,仅允许一个搜索引擎进行爬网,而禁止其他搜索引擎进行爬网。例如,只允许搜索名为“ slurp”的搜索引擎蜘蛛,而不允许其他搜索引擎蜘蛛对“ / cgi /”目录中的内容进行爬行。设置方法如下:
用户代理:*
不允许:/ cgi /
用户代理:食
不允许:
示例3:禁止任何搜索引擎抓取我的网站,其设置方法如下:
用户代理:*
不允许:/
示例4:仅禁止某个搜索引擎抓取我的网站例如:仅禁止名为“ slurp”的搜索引擎蜘蛛抓取,设置方法如下:
用户代理:食
不允许:/
更多参考资料(英文版)
符号问题
使用“ *”主要是为了限制对具有特定后缀的域名的访问。禁止访问/ html /目录(包括子目录)中带有后缀“ .htm”的所有URL。
Robots.txt编写如下:
用户代理:*
不允许:/ html / *。htm
使用“ $”仅允许访问特定目录中具有特定后缀的文件
Robots.txt编写如下:
用户代理:*
允许:.asp $
不允许:/
如果我们禁止为网站中的所有动态页面建立索引(此处限制使用“?”的域名,例如index.asp?id = 1)
Robots.txt编写如下:
用户代理:*
不允许:/ *?*
有时候,为了节省服务器资源,我们需要禁止所有搜索引擎在网站上为我们的图片编制索引。除了使用“ Disallow:/ images /”直接阻止文件夹外,这里的方法还可以。 ,您也可以直接屏蔽图像后缀。