搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法有哪些?如何解决)
优采云 发布时间: 2021-11-06 14:00搜索引擎禁止的方式优化网站(禁止搜索引擎收录的方法和使用方法有哪些?如何解决)
禁止搜索引擎的方法收录
一个。 robots.txt 文件是什么?
搜索引擎使用程序机器人(也称为蜘蛛)自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,并在该文件中声明您不想被机器人访问的网站部分。这样就可以将网站的部分或全部内容排除在搜索引擎收录之外,或者只能由收录指定搜索引擎。
二.robots.txt 文件在哪里?
robots.txt 文件应该放在网站的根目录下。例如,当robots访问一个网站(例如)时,它会首先检查网站中是否存在该文件。如果机器人找到了这个文件,它会根据文件的内容确定其访问权限的范围。
网站网址
对应robots.txt的网址
:80/
:80/robots.txt
:1234/
:1234/robots.txt
三. Robots.txt 文件格式
“robots.txt”文件收录一条或多条记录,以空行分隔(以 CR、CR/NL 或 NL 作为终止符)。每条记录的格式如下:
":".
在这个文件中,可以使用#进行标注,具体用法与UNIX中的约定相同。这个文件中的记录通常以一行或多行User-agent开头,后面跟着几行Disallow,具体如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被协议限制。对于这个文件,必须至少有一个 User-agent 记录。如果该项的值设置为*,则该协议对任何机器人都有效。 “robots.txt”文件中只能有“User-agent:*”等一条记录。
禁止:
此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“禁止:/help”不允许搜索引擎访问/help.html和/help/index.html,而“禁止:/help/”允许机器人访问/help.html但不允许访问/help/index . .html。
Any Disallow 记录为空,表示允许访问网站的所有部分。 “/robots.txt”文件中必须至少有一个 Disallow 记录。如果“/robots.txt”是一个空文件,这个网站对所有搜索引擎机器人都是开放的。
四. robots.txt 文件使用示例
示例1.禁止所有搜索引擎访问网站
的任何部分
下载 robots.txt 文件
用户代理:*
禁止:/
示例2.允许所有机器人访问
(或者你可以创建一个空文件“/robots.txt”文件)
用户代理:*
禁止:
示例 3. 禁止访问某个搜索引擎
用户代理:BadBot
禁止:/
示例4.允许访问搜索引擎
用户代理:baiduspider
禁止:
用户代理:*
禁止:/
例子5.一个简单的例子
在这个例子中,网站有三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。
需要注意的是,每个目录必须单独声明,不能写成“Disallow: /cgi-bin/ /tmp/”。
User-agent:后面的*有特殊含义,代表“任何机器人”,所以这个文件中不应该有“Disallow:/tmp/*”或“Disallow:*.gif”等记录。
用户代理:*
禁止:/cgi-bin/
禁止:/tmp/
禁止:/~joe/
五. robots.txt 文件参考资料
robots.txt文件更具体的设置请参考以下链接:
· 机器人排除协议的 Web 服务器管理员指南
· 机器人排除协议的 HTML 作者指南
· 1994 年的原创协议描述,目前已部署
· 修订后的 Internet-Draft 规范,尚未完成或实施