搜索引擎如何抓取网页(什么是robots协议?1.robots.txt是什么?想过)

优采云 发布时间: 2022-03-16 04:19

  搜索引擎如何抓取网页(什么是robots协议?1.robots.txt是什么?想过)

  什么是机器人协议?

  1.robots.txt 是什么?

  你有没有想过如果我们的网站之一不允许百度和谷歌收录怎么办?

  搜索引擎与我们达成了一项协议,如果我们这样做,他们就不会去收录。此书写约定文件名为:robots.txt。robots.txt 是最简单的 .txt 文件,它告诉搜索引擎哪些页面允许收录,哪些页面不允许收录。

  如果您的网站对所有搜索引擎开放,则无需将此文件设为空,否则 robots.txt 为空。

  2.如何编写 Robots.txt 文件

  robots.txt 文件格式:

  User-agent:定义搜索引擎的类型

  Disallow:定义被搜索引擎禁止的地址 收录

  允许:定义允许搜索引擎 收录 的地址

  一般情况下,robots.txt中只写了两个函数:User-agent和Disallow。至少需要一个 Disallow 函数。如果两者都允许收录,则写:Disallow:,如果两个收录都不允许@>,则写:Disallow:/(注意:只有一个斜线)。文件中只写要拦截的蜘蛛就够了,允许爬的蜘蛛就不用写了。并且,如果有多个禁止,则必须有几个 Disallow 函数,这些函数需要在单独的行中描述。

  示例 1.禁止所有搜索引擎访问 网站 的任何部分

  User-agent:* (注:*为通配符,此处指所有搜索引擎类型)

  不允许:/

  示例 2.禁用对某个搜索引擎的访问

  用户代理:BadBot

  不允许:/

  示例 3.允许访问搜索引擎

  用户代理:百度蜘蛛

  允许:/

  示例 4. 允许搜索引擎访问特定目录中的网页

  用户代理:*

  允许:/Directory 1/Directory 2(允许访问目录 2 中的网页)

  允许:/directory 3/directory 4(允许访问目录 4 中的网页)

  允许:/directory 5/directory 6(允许访问目录 6 中的网页)

  禁止:/directory1/

  禁止:/directory3/

  禁止:/directory5/

  特别提示:robots 中内容的大小写不能更改,Disallow 后面的冒号必须是英文。

  3.Robots.txt 文件应该放在哪里?

  robots.txt文件必须放在网站的根目录下,名称必须为:robots.txt,全部小写,robot后加“s”。放在子目录下的robots.txt文件是搜索引擎无法抓取的,所以起不到任何作用。

  例子:

  /robots.txt 有效

  /bbs/robots.txt 无效

  4.生效时间

  robots.txt文件一般在7-15天内生效,也就是1-2周。如果新的网站源码中收录robots.txt文件,会在蜘蛛爬取时生效。如果以后添加,蜘蛛需要更新数据,一般在7-15天内。

  5.关于robots.txt 一般站长需要注意以下几点:

  1.)网站 这种情况经常发生:不同的链接指向相似的网页内容。这不符合SEO中的“网页内容异质性原则”。使用 robots.txt 文件阻止二级链接。

  2.)网站 所有原本对搜索引擎不友好的链接都需要在修改或URL重写优化时被屏蔽。使用 robots.txt 文件删除旧链接是 SEO 友好的。

  3.) 一些没有关键词的页面,比如站点内的搜索结果页面,最好屏蔽掉

  4.) 网站 中的脚本程序、样式表和其他文件不会增加 网站 的 收录 速率,即使它们是蜘蛛的 收录,但会只占用服务器存储空间。因此,必须在 robots.txt 文件中设置,不允许搜索蜘蛛索引脚本、样式表等文件。

  5.) 搜索蜘蛛抓取网页是对服务器资源的浪费。robots.txt 文件中设置的所有搜索蜘蛛无法抓取所有网页。如果是这样,整个 网站 将无法用于搜索引擎收录。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线