如何使用robots.txt.文件的使用方法

优采云发布时间: 2021-04-26 18:23

　　robots.txt是存储在站点根目录中的纯文本文件（文件名必须使用小写字母）。尽管其设置非常简单，但是其效果却非常强大。它可以指定搜索引擎蜘蛛仅对指定内容进行爬网，也可以禁止搜索引擎蜘蛛对网站的全部或部分内容进行爬网。

　　使用方法：

　　Robots.txt文件应放置在网站的根目录中，并且可以通过Internet访问该文件。

　　例如：如果您的网站地址是，则必须能够打开该文件并查看其中的内容。

　　格式：

　　用户代理：

　　用于描述搜索引擎蜘蛛的名称。在“ Robots.txt”文件中，如果有多个用户代理记录，则意味着多个搜索引擎蜘蛛将受该协议的限制。对于此文件，至少必须有一个用户代理记录。如果此项的值设置为*，则该协议对任何搜索引擎蜘蛛有效。在“ Robots.txt”文件中，只能有一条记录，例如“ User-agent：*”。

　　不允许：

　　用于描述您不想访问的URL。此URL可以是完整路径，也可以是完整路径的一部分。 Robot不会访问任何以Disallow开头的URL。

　　示例：

　　示例1：“不允许：/ help”表示搜索引擎蜘蛛不允许对/help.html和/help/index.html进行爬网。

　　示例2：“不允许：/ help /”表示允许搜索引擎蜘蛛抓取/help.html，但不能抓取/help/index.html。

　　示例3：如果Disallow记录为空，则表示此网站的所有页面都允许搜索引擎进行爬网。 “ /robots.txt”文件中必须至少有一个Disallow记录。如果“ /robots.txt”为空文件，则对于所有搜索引擎蜘蛛，此网站都是打开的，可以抓取。

　　＃：Robots.txt协议中的注释字符。

　　综合示例：

　　示例1：使用“ /robots.txt”禁止所有搜索引擎蜘蛛抓取“ / bin / cgi /”目录，“ / tmp /”目录和/foo.html文件，设置方法为如下：

　　用户代理：*

　　不允许：/ bin / cgi /

　　不允许：/ tmp /

　　不允许：/foo.html

　　示例2：通过“ /robots.txt”，仅允许一个搜索引擎进行爬网，而禁止其他搜索引擎进行爬网。例如，只允许搜索名为“ slurp”的搜索引擎蜘蛛，而不允许其他搜索引擎蜘蛛对“ / cgi /”目录中的内容进行爬行。设置方法如下：

　　用户代理：*

　　不允许：/ cgi /

　　用户代理：食

　　不允许：

　　示例3：禁止任何搜索引擎抓取我的网站，其设置方法如下：

　　用户代理：*

　　不允许：/

　　示例4：仅禁止某个搜索引擎抓取我的网站例如：仅禁止名为“ slurp”的搜索引擎蜘蛛抓取，设置方法如下：

　　用户代理：食

　　不允许：/

　　更多参考资料（英文版）

　　符号问题

　　使用“ *”主要是为了限制对具有特定后缀的域名的访问。禁止访问/ html /目录（包括子目录）中带有后缀“ .htm”的所有URL。

　　Robots.txt编写如下：

　　用户代理：*

　　不允许：/ html / *。htm

　　使用“ $”仅允许访问特定目录中具有特定后缀的文件

　　Robots.txt编写如下：

　　用户代理：*

　　允许：.asp $

　　不允许：/

　　如果我们禁止为网站中的所有动态页面建立索引（此处限制使用“？”的域名，例如index.asp？id = 1）

　　Robots.txt编写如下：

　　用户代理：*

　　不允许：/ *？*

　　有时候，为了节省服务器资源，我们需要禁止所有搜索引擎在网站上为我们的图片编制索引。除了使用“ Disallow：/ images /”直接阻止文件夹外，这里的方法还可以。，您也可以直接屏蔽图像后缀。

0

2021-04-26

2017搜索引擎优化规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何使用robots.txt.文件的使用方法

0 个评论

发起人

AI时代内容工厂

如何使用robots.txt.文件的使用方法

0 个评论

发起人

相关问题