搜索引擎如何抓取网页(什么是robots协议？1.robots.txt是什么？想过)

优采云发布时间: 2022-03-16 04:19

　　什么是机器人协议？

　　1.robots.txt 是什么？

　　你有没有想过如果我们的网站之一不允许百度和谷歌收录怎么办？

　　搜索引擎与我们达成了一项协议，如果我们这样做，他们就不会去收录。此书写约定文件名为：robots.txt。robots.txt 是最简单的 .txt 文件，它告诉搜索引擎哪些页面允许收录，哪些页面不允许收录。

　　如果您的网站对所有搜索引擎开放，则无需将此文件设为空，否则 robots.txt 为空。

　　2.如何编写 Robots.txt 文件

　　robots.txt 文件格式：

　　User-agent：定义搜索引擎的类型

　　Disallow：定义被搜索引擎禁止的地址收录

　　允许：定义允许搜索引擎收录的地址

　　一般情况下，robots.txt中只写了两个函数：User-agent和Disallow。至少需要一个 Disallow 函数。如果两者都允许收录，则写：Disallow:，如果两个收录都不允许@>，则写：Disallow:/（注意：只有一个斜线）。文件中只写要拦截的蜘蛛就够了，允许爬的蜘蛛就不用写了。并且，如果有多个禁止，则必须有几个 Disallow 函数，这些函数需要在单独的行中描述。

　　示例 1.禁止所有搜索引擎访问网站的任何部分

　　User-agent:* （注：*为通配符，此处指所有搜索引擎类型）

　　不允许：/

　　示例 2.禁用对某个搜索引擎的访问

　　用户代理：BadBot

　　不允许：/

　　示例 3.允许访问搜索引擎

　　用户代理：百度蜘蛛

　　允许：/

　　示例 4. 允许搜索引擎访问特定目录中的网页

　　用户代理：*

　　允许：/Directory 1/Directory 2（允许访问目录 2 中的网页）

　　允许：/directory 3/directory 4（允许访问目录 4 中的网页）

　　允许：/directory 5/directory 6（允许访问目录 6 中的网页）

　　禁止：/directory1/

　　禁止：/directory3/

　　禁止：/directory5/

　　特别提示：robots 中内容的大小写不能更改，Disallow 后面的冒号必须是英文。

　　3.Robots.txt 文件应该放在哪里？

　　robots.txt文件必须放在网站的根目录下，名称必须为：robots.txt，全部小写，robot后加“s”。放在子目录下的robots.txt文件是搜索引擎无法抓取的，所以起不到任何作用。

　　例子：

　　/robots.txt 有效

　　/bbs/robots.txt 无效

　　4.生效时间

　　robots.txt文件一般在7-15天内生效，也就是1-2周。如果新的网站源码中收录robots.txt文件，会在蜘蛛爬取时生效。如果以后添加，蜘蛛需要更新数据，一般在7-15天内。

　　5.关于robots.txt 一般站长需要注意以下几点：

　　1.)网站这种情况经常发生：不同的链接指向相似的网页内容。这不符合SEO中的“网页内容异质性原则”。使用 robots.txt 文件阻止二级链接。

　　2.)网站所有原本对搜索引擎不友好的链接都需要在修改或URL重写优化时被屏蔽。使用 robots.txt 文件删除旧链接是 SEO 友好的。

　　3.) 一些没有关键词的页面，比如站点内的搜索结果页面，最好屏蔽掉

　　4.) 网站中的脚本程序、样式表和其他文件不会增加网站的收录速率，即使它们是蜘蛛的收录，但会只占用服务器存储空间。因此，必须在 robots.txt 文件中设置，不允许搜索蜘蛛索引脚本、样式表等文件。

　　5.) 搜索蜘蛛抓取网页是对服务器资源的浪费。robots.txt 文件中设置的所有搜索蜘蛛无法抓取所有网页。如果是这样，整个网站将无法用于搜索引擎收录。

0

2022-03-16

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(什么是robots协议？1.robots.txt是什么？想过)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(什么是robots协议？1.robots.txt是什么？想过)

0 个评论

发起人

相关问题