搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

优采云发布时间: 2022-02-21 05:05

　　1. 什么是 robots.txt 文件？

　　搜索引擎利用蜘蛛程序自动访问互联网上的网页，获取网页信息。当蜘蛛访问一个网站时，它会首先检查网站的根域下是否有一个名为robots.txt的纯文本文件，这个文件用来指定蜘蛛在你的网站爬取范围在 . 您可以在网站中创建 robots.txt，在文件中声明您不想被搜索引擎收录搜索的网站部分或指定搜索engine 只是收录特定的部分。

　　请注意，仅当您的网站收录您不想被搜索引擎收录搜索的内容时，才需要 robots.txt 文件。如果您想要搜索引擎收录网站上的所有内容，请不要创建 robots.txt 文件。

　　2. robots.txt 文件在哪里？

　　robots.txt 文件应放在网站根目录中。例如，当蜘蛛访问一个网站（如**.com）时，它会首先检查网站中是否存在文件**.com/robots.txt，如果蜘蛛发现这个文件，它会根据文件的内容确定其访问权限的范围。

　　网站网址

　　对应 robots.txt 的 URL

　　:80/

　　:80/机器人.txt

　　:1234/

　　:1234/机器人.txt

　　3.我在robots.txt中设置了禁止百度的内容收录my网站，为什么百度搜索结果里还出现？

　　如果其他网站s链接到你robots.txt文件中禁止收录的页面，这些页面可能仍然会出现在百度搜索结果中，但是你页面上的内容不会被抓取、索引和显示，百度搜索结果只显示您相关页面的其他网站描述。

　　4. 阻止搜索引擎跟踪页面链接，但仅索引页面

　　如果您不希望搜索引擎跟踪此页面上的链接，并且不传递链接的权重，请将此元标记放置在页面的部分中：

　　如果不希望百度跟踪特定链接，百度也支持更精准的控制，请直接在链接上写下这个标签：

　　登入

　　要允许其他搜索引擎关注，但只阻止百度关注您页面的链接，请将此元标记放置在您页面的部分中：

　　5. 阻止搜索引擎在搜索结果中显示网页快照，但只索引网页

　　要防止所有搜索引擎显示您的网站快照，请将此元标记放置在您网页的部分中：

　　要允许其他搜索引擎显示快照，但只阻止百度显示，请使用以下标记：

　　注意：该标签仅禁止百度显示页面快照。百度将继续对页面进行索引，并在搜索结果中显示页面摘要。

　　6.我要禁止百度图片搜索收录部分图片，如何设置？

　　禁止百度蜘蛛抓取网站上的所有图片，或者允许百度蜘蛛抓取网站上某种格式的图片文件可以通过设置robots来实现，请参考“robots.txt文件使用示例”示例1 0、11、12。

　　7. robots.txt 文件格式

　　“robots.txt”文件收录一条或多条以空行分隔的记录（以 CR、CR/NL 或 NL 结尾），每条记录的格式如下：

　　“：”

　　在这个文件中可以使用#作为注解，具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头，然后是几行 Disallow 和 Allow 行。详细情况如下：

　　用户代理：

　　该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，则表示多个机器人会受到“robots.txt”的限制。对于此文件，必须至少有一个 User-agent 记录。如果此项的值设置为 *，则对任何机器人都有效。在“robots.txt”文件中，“User-agent:*”只能有一条记录。如果在“robots.txt”文件中，添加“User-agent: SomeBot”和几行Disallow和Allow行，“SomeBot”的名称只受“User-agent: SomeBot”后面的Disallow和Allow行的限制。

　　不允许：

　　该项目的值用于描述一组不想被访问的 URL。该值可以是完整路径，也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如“Disallow:/help”禁止机器人访问/help.html、/helpa**.html、/help/index.html，而“Disallow:/help/”允许机器人访问/help.html、/helpa ** .html，无法访问 /help/index.html。“Disallow:”表示允许机器人访问网站的所有URL，且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件，则网站对所有搜索引擎机器人开放。

　　允许：

　　该项目的值用于描述您希望访问的一组 URL。与 Disallow 项类似，该值可以是完整路径，也可以是路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如“允许：/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站的所有 URL 默认为 Allow，因此 Allow 通常与 Disallow 结合使用，以允许访问某些网页，同时禁止访问所有其他 URL。

　　使用“*”和“$”：

　　百度蜘蛛支持使用通配符“*”和“$”来模糊匹配url。

　　"$" 匹配行终止符。

　　"*" 匹配零个或多个任意字符。

　　注意：我们会严格遵守robots的相关协议，请注意区分您不想被爬取的目录或收录的大小写，我们会处理robots里写的文件和你做的文件不想被爬取和收录@>的目录必须完全匹配，否则robots协议不会生效。

　　8. URL 匹配示例

　　允许或禁止的值

　　网址

　　比赛结果

　　/tmp

　　是的

　　/tmp

　　/tmp.html

　　是的

　　/tmp

　　/tmp/a.html

　　是的

　　/tmp

　　/tmphoho

　　不

　　/你好*

　　/你好.html

　　是的

　　/他*洛

　　/你好，洛洛

　　是的

　　/堆*lo

　　/你好，洛洛

　　不

　　html$

　　/tmpa.html

　　是的

　　/a.html$

　　/a.html

　　是的

　　htm$

　　/a.html

　　不

　　9. robots.txt 文件的示例用法

　　示例 1. 禁止所有搜索引擎访问网站的任何部分

　　下载 robots.txt 文件

　　用户代理： *

　　不允许： /

　　示例 2. 允许所有机器人访问

　　（或者您可以创建一个空文件“/robots.txt”）

　　用户代理： *

　　允许： /

　　示例 3. 仅禁止百度蜘蛛访问您的网站

　　用户代理：百度蜘蛛

　　不允许： /

　　示例 4. 只允许百度蜘蛛访问你的网站

　　用户代理：百度蜘蛛

　　允许： /

　　用户代理： *

　　不允许： /

　　示例 5. 只允许百度蜘蛛和 Googlebot 访问

　　用户代理：百度蜘蛛

　　允许： /

　　用户代理：Googlebot

　　允许： /

　　用户代理： *

　　不允许： /

　　示例 6. 禁止蜘蛛访问特定目录

　　在这个例子中，网站有三个目录限制搜索引擎的访问，即机器人不会访问这三个目录。需要注意的是，每个目录必须单独声明，不能写成“Disallow: /cgi-bin/ /tmp/”。

　　用户代理： *

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例 7. 允许访问特定目录中的部分 url

　　用户代理： *

　　允许：/cgi-bin/see

　　允许：/tmp/hi

　　允许：/~joe/look

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　示例 8. 使用“*”限制对 url 的访问

　　禁止访问/cgi-bin/目录下所有以“.htm”为后缀的URL（包括子目录）。

　　用户代理： *

　　禁止：/cgi-bin/*.htm

　　示例 9. 使用“$”限制对 url 的访问

　　只允许使用后缀为“.htm”的 URL。

　　用户代理： *

　　允许：/*.htm$

　　不允许： /

　　示例 1 0. 禁用对网站中所有动态页面的访问

　　用户代理： *

　　不允许： /*？*

　　示例一 1. 禁止百度蜘蛛抓取网站上的所有图片

　　只允许网页，不允许图像。

　　用户代理：百度蜘蛛

　　禁止：/*.jpg$

　　禁止：/*.jpeg$

　　禁止：/*.gif$

　　禁止：/*.png$

　　禁止：/*.bmp$

　　示例12. 只允许Baiduspider爬取网页和.gif格式的图片

　　允许抓取网页和gif格式的图片，不允许抓取其他格式的图片

　　用户代理：百度蜘蛛

　　允许：/*.gif$

　　禁止：/*.jpg$

　　禁止：/*.jpeg$

　　禁止：/*.png$

　　禁止：/*.bmp$

　　示例13.只禁止百度蜘蛛抓取.jpg格式图片

　　用户代理：百度蜘蛛

　　禁止：/*.jpg$

　　10. robots.txt 文件参考

　　robots.txt文件中更具体的设置，请参考以下链接：

　　机器人排除协议的 Web 服务器管理员指南

　　机器人排除协议 HTML 作者指南

　　当前部署的 1994 年原创协议描述

　　修订后的 Internet-Draft 规范，尚未完成或实施

　　喜欢：3 不喜欢：0

0

2022-02-21

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

0 个评论

发起人

AI时代内容工厂

搜索引擎禁止的方式优化网站(1.什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页)

0 个评论

发起人

相关问题