搜索引擎如何抓取网页(什么是robots协议?1.robots.txt是什么?想过)
优采云 发布时间: 2022-03-16 04:19搜索引擎如何抓取网页(什么是robots协议?1.robots.txt是什么?想过)
什么是机器人协议?
1.robots.txt 是什么?
你有没有想过如果我们的网站之一不允许百度和谷歌收录怎么办?
搜索引擎与我们达成了一项协议,如果我们这样做,他们就不会去收录。此书写约定文件名为:robots.txt。robots.txt 是最简单的 .txt 文件,它告诉搜索引擎哪些页面允许收录,哪些页面不允许收录。
如果您的网站对所有搜索引擎开放,则无需将此文件设为空,否则 robots.txt 为空。
2.如何编写 Robots.txt 文件
robots.txt 文件格式:
User-agent:定义搜索引擎的类型
Disallow:定义被搜索引擎禁止的地址 收录
允许:定义允许搜索引擎 收录 的地址
一般情况下,robots.txt中只写了两个函数:User-agent和Disallow。至少需要一个 Disallow 函数。如果两者都允许收录,则写:Disallow:,如果两个收录都不允许@>,则写:Disallow:/(注意:只有一个斜线)。文件中只写要拦截的蜘蛛就够了,允许爬的蜘蛛就不用写了。并且,如果有多个禁止,则必须有几个 Disallow 函数,这些函数需要在单独的行中描述。
示例 1.禁止所有搜索引擎访问 网站 的任何部分
User-agent:* (注:*为通配符,此处指所有搜索引擎类型)
不允许:/
示例 2.禁用对某个搜索引擎的访问
用户代理:BadBot
不允许:/
示例 3.允许访问搜索引擎
用户代理:百度蜘蛛
允许:/
示例 4. 允许搜索引擎访问特定目录中的网页
用户代理:*
允许:/Directory 1/Directory 2(允许访问目录 2 中的网页)
允许:/directory 3/directory 4(允许访问目录 4 中的网页)
允许:/directory 5/directory 6(允许访问目录 6 中的网页)
禁止:/directory1/
禁止:/directory3/
禁止:/directory5/
特别提示:robots 中内容的大小写不能更改,Disallow 后面的冒号必须是英文。
3.Robots.txt 文件应该放在哪里?
robots.txt文件必须放在网站的根目录下,名称必须为:robots.txt,全部小写,robot后加“s”。放在子目录下的robots.txt文件是搜索引擎无法抓取的,所以起不到任何作用。
例子:
/robots.txt 有效
/bbs/robots.txt 无效
4.生效时间
robots.txt文件一般在7-15天内生效,也就是1-2周。如果新的网站源码中收录robots.txt文件,会在蜘蛛爬取时生效。如果以后添加,蜘蛛需要更新数据,一般在7-15天内。
5.关于robots.txt 一般站长需要注意以下几点:
1.)网站 这种情况经常发生:不同的链接指向相似的网页内容。这不符合SEO中的“网页内容异质性原则”。使用 robots.txt 文件阻止二级链接。
2.)网站 所有原本对搜索引擎不友好的链接都需要在修改或URL重写优化时被屏蔽。使用 robots.txt 文件删除旧链接是 SEO 友好的。
3.) 一些没有关键词的页面,比如站点内的搜索结果页面,最好屏蔽掉
4.) 网站 中的脚本程序、样式表和其他文件不会增加 网站 的 收录 速率,即使它们是蜘蛛的 收录,但会只占用服务器存储空间。因此,必须在 robots.txt 文件中设置,不允许搜索蜘蛛索引脚本、样式表等文件。
5.) 搜索蜘蛛抓取网页是对服务器资源的浪费。robots.txt 文件中设置的所有搜索蜘蛛无法抓取所有网页。如果是这样,整个 网站 将无法用于搜索引擎收录。