robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项

优采云 发布时间: 2021-08-09 18:05

  robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项

  Robots其实是指robots协议(也叫爬虫协议、机器人协议),它的全称是“爬虫排除标准”,网站告诉搜索引擎哪些页面可以爬取,哪些页面通过robots协议不能被爬取爬了。携带这些协议的文件就是robots.txt文件,那么robots.txt文件的作用是什么?今天这篇文章将详细介绍如何编写robots协议以及注意事项。

  

  机器人.txt

  当你打开一个全新的网站时,网站root目录下默认没有Robots.txt文件,导致很多站长不关心Robots协议,这对以后的运营是一个隐患。 , 如:

  ① 生成大量重复页面,动态链接被抓取。

  ②新站没有内容栏,为收录,影响网站质量评价。

  对于新站点,由于蜘蛛爬行频率有限,我们应该合理利用Robos协议和Robots.txt文件来引导蜘蛛爬行和爬行。

  一、Robots 协议是什么,Robots.txt 的作用是什么?

  1、Robots 协议

  简单理解:Robots协议是搜索引擎蜘蛛抓取的标准。当蜘蛛访问时,它会首先检查网站root 目录中是否有Robots.txt。如果存在,它将抓取只允许被SEO管理抓取的页面,并按照Robots协议的规定屏蔽不需要抓取的内容。可以理解为蜘蛛和网站之间的桥梁。

  Robots.txt文本文件有robots协议,告诉所有搜索引擎网站的哪些页面可以爬取,哪些页面禁止爬取。这有两个含义:1、protect Privacy。一些目录或页面不想或不能被外界看到。一些搜索引擎可能没有意识到这些情况,它们仍然会像往常一样抓取和显示这些页面。如果我们通过robots设置限制,搜索引擎蜘蛛就会放弃爬行,外界将无法通过搜索引擎知道这些机密信息。

  2、调整爬取的页面数。众所周知,每个网站上的蜘蛛爬行配额是有限的。如果我们禁止一些不重要的页面被抓取,那么把配额留给那些重要的页面,被抓取的机会就会更多。

  

  机器人.txt

  如何写二、robots.txt文件

  robots 协议用于允许或禁止,您也可以设置特定的搜索引擎。其实一般情况下不需要区分搜索引擎,而是统一设置允许爬取。

  1、所有搜索引擎禁止访问网站

  用户代理:*

  禁止:/

  2、允许所有搜索引擎访问网站

  用户代理:*

  允许:/

  3、禁止所有蜘蛛访问网站的某个目录

  用户代理:*

  禁止:/test/

  这是最基本的用法。有许多技术可以使用机器人协议。我建议你仔细阅读协议。

  三、Robots.txt 常见问题

  ① 如何生成Robots.txt文件

  目前网络平台上有很多SEO推广软件,都支持客户端自动生成Robots.txt文件。提供了一些方便的条件,比如:自动拦截一些不必要的爬虫,避免浪费过多的资源,以及相关的栏目页面和图片等。

  ②网站不收录,熊掌号不输出数据

  这个问题经常发生。您可以尽快检查 Robots.txt 文件。百度蜘蛛是否因为操作错误被屏蔽,导致网站不收录

  ③ Robots.txt 和 nofollow 标签

  有时当您尝试阻止某个网址时,Robots.txt 中明确禁止抓取,但它仍会被编入索引。这种情况可能存在。为了安全,可以在标签中添加nofollow,达到万无一失的效果。

  

  机器人.txt

  四、robots.txt 文件相关注意事项

  有站长说我的网站没有任何禁止爬行的页面,所以不需要设置robots文件,理论上是可以的。不过我建议即使网站完全打开,也最好创建一个robots文件,比如我的网站文件:/robots.txt,一般放在网站的根目录下。

  总结:Robots.txt 文件是一个值得网站管理员研究的协议。合理分配网站资源,有利于网站运营的快速发展。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线