搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法有哪些？如何解决)

优采云发布时间: 2021-11-06 14:00

　　禁止搜索引擎的方法收录

　　一个。 robots.txt 文件是什么？

　　搜索引擎使用程序机器人（也称为蜘蛛）自动访问互联网上的网页并获取网页信息。

　　您可以在您的网站中创建一个纯文本文件robots.txt，并在该文件中声明您不想被机器人访问的网站部分。这样就可以将网站的部分或全部内容排除在搜索引擎收录之外，或者只能由收录指定搜索引擎。

　　二.robots.txt 文件在哪里？

　　robots.txt 文件应该放在网站的根目录下。例如，当robots访问一个网站（例如）时，它会首先检查网站中是否存在该文件。如果机器人找到了这个文件，它会根据文件的内容确定其访问权限的范围。

　　网站网址

　　对应robots.txt的网址

　　:80/

　　:80/robots.txt

　　:1234/

　　:1234/robots.txt

　　三. Robots.txt 文件格式

　　“robots.txt”文件收录一条或多条记录，以空行分隔（以 CR、CR/NL 或 NL 作为终止符）。每条记录的格式如下：

　　":".

　　在这个文件中，可以使用#进行标注，具体用法与UNIX中的约定相同。这个文件中的记录通常以一行或多行User-agent开头，后面跟着几行Disallow，具体如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，表示多个robots会被协议限制。对于这个文件，必须至少有一个 User-agent 记录。如果该项的值设置为*，则该协议对任何机器人都有效。 “robots.txt”文件中只能有“User-agent:*”等一条记录。

　　禁止：

　　此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如，“禁止：/help”不允许搜索引擎访问/help.html和/help/index.html，而“禁止：/help/”允许机器人访问/help.html但不允许访问/help/index . .html。

　　Any Disallow 记录为空，表示允许访问网站的所有部分。 “/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件，这个网站对所有搜索引擎机器人都是开放的。

　　四. robots.txt 文件使用示例

　　示例1.禁止所有搜索引擎访问网站

　　的任何部分

　　下载 robots.txt 文件

　　用户代理：*

　　禁止：/

　　示例2.允许所有机器人访问

　　（或者你可以创建一个空文件“/robots.txt”文件）

　　用户代理：*

　　禁止：

　　示例 3. 禁止访问某个搜索引擎

　　用户代理：BadBot

　　禁止：/

　　示例4.允许访问搜索引擎

　　用户代理：baiduspider

　　禁止：

　　用户代理：*

　　禁止：/

　　例子5.一个简单的例子

　　在这个例子中，网站有三个限制搜索引擎访问的目录，即搜索引擎不会访问这三个目录。

　　需要注意的是，每个目录必须单独声明，不能写成“Disallow: /cgi-bin/ /tmp/”。

　　User-agent:后面的*有特殊含义，代表“任何机器人”，所以这个文件中不应该有“Disallow:/tmp/*”或“Disallow:*.gif”等记录。

　　用户代理：*

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　五. robots.txt 文件参考资料

　　robots.txt文件更具体的设置请参考以下链接：

　　· 机器人排除协议的 Web 服务器管理员指南

　　· 机器人排除协议的 HTML 作者指南

　　· 1994 年的原创协议描述，目前已部署

　　· 修订后的 Internet-Draft 规范，尚未完成或实施

0

2021-11-06

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法有哪些？如何解决)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法有哪些？如何解决)

0 个评论

发起人

相关问题