robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项

优采云发布时间: 2021-08-09 18:05

　　Robots其实是指robots协议（也叫爬虫协议、机器人协议），它的全称是“爬虫排除标准”，网站告诉搜索引擎哪些页面可以爬取，哪些页面通过robots协议不能被爬取爬了。携带这些协议的文件就是robots.txt文件，那么robots.txt文件的作用是什么？今天这篇文章将详细介绍如何编写robots协议以及注意事项。

　　机器人.txt

　　当你打开一个全新的网站时，网站root目录下默认没有Robots.txt文件，导致很多站长不关心Robots协议，这对以后的运营是一个隐患。 , 如：

　　① 生成大量重复页面，动态链接被抓取。

　　②新站没有内容栏，为收录，影响网站质量评价。

　　对于新站点，由于蜘蛛爬行频率有限，我们应该合理利用Robos协议和Robots.txt文件来引导蜘蛛爬行和爬行。

　　一、Robots 协议是什么，Robots.txt 的作用是什么？

　　1、Robots 协议

　　简单理解：Robots协议是搜索引擎蜘蛛抓取的标准。当蜘蛛访问时，它会首先检查网站root 目录中是否有Robots.txt。如果存在，它将抓取只允许被SEO管理抓取的页面，并按照Robots协议的规定屏蔽不需要抓取的内容。可以理解为蜘蛛和网站之间的桥梁。

　　Robots.txt文本文件有robots协议，告诉所有搜索引擎网站的哪些页面可以爬取，哪些页面禁止爬取。这有两个含义：1、protect Privacy。一些目录或页面不想或不能被外界看到。一些搜索引擎可能没有意识到这些情况，它们仍然会像往常一样抓取和显示这些页面。如果我们通过robots设置限制，搜索引擎蜘蛛就会放弃爬行，外界将无法通过搜索引擎知道这些机密信息。

　　2、调整爬取的页面数。众所周知，每个网站上的蜘蛛爬行配额是有限的。如果我们禁止一些不重要的页面被抓取，那么把配额留给那些重要的页面，被抓取的机会就会更多。

　　机器人.txt

　　如何写二、robots.txt文件

　　robots 协议用于允许或禁止，您也可以设置特定的搜索引擎。其实一般情况下不需要区分搜索引擎，而是统一设置允许爬取。

　　1、所有搜索引擎禁止访问网站

　　用户代理：*

　　禁止：/

　　2、允许所有搜索引擎访问网站

　　用户代理：*

　　允许：/

　　3、禁止所有蜘蛛访问网站的某个目录

　　用户代理：*

　　禁止：/test/

　　这是最基本的用法。有许多技术可以使用机器人协议。我建议你仔细阅读协议。

　　三、Robots.txt 常见问题

　　① 如何生成Robots.txt文件

　　目前网络平台上有很多SEO推广软件，都支持客户端自动生成Robots.txt文件。提供了一些方便的条件，比如：自动拦截一些不必要的爬虫，避免浪费过多的资源，以及相关的栏目页面和图片等。

　　②网站不收录，熊掌号不输出数据

　　这个问题经常发生。您可以尽快检查 Robots.txt 文件。百度蜘蛛是否因为操作错误被屏蔽，导致网站不收录

　　③ Robots.txt 和 nofollow 标签

　　有时当您尝试阻止某个网址时，Robots.txt 中明确禁止抓取，但它仍会被编入索引。这种情况可能存在。为了安全，可以在标签中添加nofollow，达到万无一失的效果。

　　机器人.txt

　　四、robots.txt 文件相关注意事项

　　有站长说我的网站没有任何禁止爬行的页面，所以不需要设置robots文件，理论上是可以的。不过我建议即使网站完全打开，也最好创建一个robots文件，比如我的网站文件：/robots.txt，一般放在网站的根目录下。

　　总结：Robots.txt 文件是一个值得网站管理员研究的协议。合理分配网站资源，有利于网站运营的快速发展。

0

2021-08-09

seo是网站搜索引擎上的优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项

0 个评论

发起人

AI时代内容工厂

robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项

0 个评论

发起人

相关问题