robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项
优采云 发布时间: 2021-08-09 18:05robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项
Robots其实是指robots协议(也叫爬虫协议、机器人协议),它的全称是“爬虫排除标准”,网站告诉搜索引擎哪些页面可以爬取,哪些页面通过robots协议不能被爬取爬了。携带这些协议的文件就是robots.txt文件,那么robots.txt文件的作用是什么?今天这篇文章将详细介绍如何编写robots协议以及注意事项。
机器人.txt
当你打开一个全新的网站时,网站root目录下默认没有Robots.txt文件,导致很多站长不关心Robots协议,这对以后的运营是一个隐患。 , 如:
① 生成大量重复页面,动态链接被抓取。
②新站没有内容栏,为收录,影响网站质量评价。
对于新站点,由于蜘蛛爬行频率有限,我们应该合理利用Robos协议和Robots.txt文件来引导蜘蛛爬行和爬行。
一、Robots 协议是什么,Robots.txt 的作用是什么?
1、Robots 协议
简单理解:Robots协议是搜索引擎蜘蛛抓取的标准。当蜘蛛访问时,它会首先检查网站root 目录中是否有Robots.txt。如果存在,它将抓取只允许被SEO管理抓取的页面,并按照Robots协议的规定屏蔽不需要抓取的内容。可以理解为蜘蛛和网站之间的桥梁。
Robots.txt文本文件有robots协议,告诉所有搜索引擎网站的哪些页面可以爬取,哪些页面禁止爬取。这有两个含义:1、protect Privacy。一些目录或页面不想或不能被外界看到。一些搜索引擎可能没有意识到这些情况,它们仍然会像往常一样抓取和显示这些页面。如果我们通过robots设置限制,搜索引擎蜘蛛就会放弃爬行,外界将无法通过搜索引擎知道这些机密信息。
2、调整爬取的页面数。众所周知,每个网站上的蜘蛛爬行配额是有限的。如果我们禁止一些不重要的页面被抓取,那么把配额留给那些重要的页面,被抓取的机会就会更多。
机器人.txt
如何写二、robots.txt文件
robots 协议用于允许或禁止,您也可以设置特定的搜索引擎。其实一般情况下不需要区分搜索引擎,而是统一设置允许爬取。
1、所有搜索引擎禁止访问网站
用户代理:*
禁止:/
2、允许所有搜索引擎访问网站
用户代理:*
允许:/
3、禁止所有蜘蛛访问网站的某个目录
用户代理:*
禁止:/test/
这是最基本的用法。有许多技术可以使用机器人协议。我建议你仔细阅读协议。
三、Robots.txt 常见问题
① 如何生成Robots.txt文件
目前网络平台上有很多SEO推广软件,都支持客户端自动生成Robots.txt文件。提供了一些方便的条件,比如:自动拦截一些不必要的爬虫,避免浪费过多的资源,以及相关的栏目页面和图片等。
②网站不收录,熊掌号不输出数据
这个问题经常发生。您可以尽快检查 Robots.txt 文件。百度蜘蛛是否因为操作错误被屏蔽,导致网站不收录
③ Robots.txt 和 nofollow 标签
有时当您尝试阻止某个网址时,Robots.txt 中明确禁止抓取,但它仍会被编入索引。这种情况可能存在。为了安全,可以在标签中添加nofollow,达到万无一失的效果。
机器人.txt
四、robots.txt 文件相关注意事项
有站长说我的网站没有任何禁止爬行的页面,所以不需要设置robots文件,理论上是可以的。不过我建议即使网站完全打开,也最好创建一个robots文件,比如我的网站文件:/robots.txt,一般放在网站的根目录下。
总结:Robots.txt 文件是一个值得网站管理员研究的协议。合理分配网站资源,有利于网站运营的快速发展。