搜索引擎收录的robot.txt文件是干嘛的呢?
优采云 发布时间: 2021-04-28 21:19搜索引擎收录的robot.txt文件是干嘛的呢?
网站管理员知道,在大多数情况下,搜索引擎收录的网站页面不是我们想要访问的页面收录。这确实很烦人,尤其是网站后端地址。百度收录,则网站的安全性具有很大的隐患。此时,可以反映robot.txt文件的角色。只要文件中没有蜘蛛的访问权限,百度就不会收录您不想成为收录的页面,因此您可以集中网站的权重,这对于搜索引擎非常有用优化。
如何编写robots.txt文件以优化搜索引擎
在介绍robot.txt的内容之前,让我先谈谈这是干什么用的。从字面上看,机器人代表机器人。从后缀名称来看,它是一个txt文件。通过该名称,可以看出该文件是搜索引擎蜘蛛机器人的文件。所谓的roots.txt文件是漫游器协议(也称为采集器协议,漫游器协议等)。这是搜索引擎蜘蛛到达您之后的第一个文件网站。通过此文件,搜索引擎蜘蛛可以了解网站可以对那些内容进行爬网,而不能对那些页面进行爬网。当然,我们也可以直接阻止蜘蛛的访问。在了解了该文件的用途之后,下面将详细介绍robots.txt文件的写入方法。
robots.txt语句:
用户代理:*此处代表的所有搜索引擎类型均为通配符
不允许:/ admin /此处的定义是禁止对admin目录下的目录进行爬网
不允许:/ require /此处的定义是禁止对require目录下的目录进行爬网
不允许:/ ABC /此处的定义是禁止对ABC目录下的目录进行爬网
不允许:/cgi-bin/.htm禁止访问/ cgi-bin /目录中带有后缀“ .htm”的所有URL。
不允许:/?*禁止访问网站中收录问号(?)的所有URL
不允许:/.jpg$禁止在网络上抓取所有.jpg格式的图片
不允许:/ab/adc.html禁止抓取ab文件夹下的adc.html文件。
允许:/ cgi-bin /此处的定义是允许对cgi-bin目录下的目录进行爬网
允许:此处定义/ tmp以允许对tmp的整个目录进行爬网
允许:.htm $仅允许访问后缀为“ .htm”的URL。
允许:.gif $允许抓取网页和gif格式的图像
站点地图:网站地图告诉抓取者此页面是网站地图
编写robots.txt的示例:
1、禁止所有搜索引擎访问网站的所有部分
用户代理:*
不允许:/
2、禁止百度将您的网站编入索引
用户代理:百度蜘蛛
不允许:/
3、禁止Google将您的网站编入索引
用户代理:Googlebot
不允许:/
4、禁止除Google之外的所有搜索引擎将您的网站编入索引
用户代理:Googlebot
不允许:
用户代理:*
不允许:/
5、禁止除百度之外的所有搜索引擎为您的网站编制索引
用户代理:百度蜘蛛
不允许:
用户代理:*
不允许:/
6、阻止蜘蛛访问某个目录
(例如,禁止对admin \ css \ images建立索引)
用户代理:*
不允许:/ css /
不允许:/ admin /
不允许:/ images /
7、允许访问目录中的某些URL
用户代理:*
允许:/ css / my
允许:/ admin / html
允许:/ images / index
不允许:/ css /
不允许:/ admin /
不允许:/ images /
在编写这些句子时,要特别注意的一件事是,冒号(:)和(/)之间必须有一个空格。如果未添加该空间,它将无法正常工作。通常将robots.txt文件放入网站的根目录中,并且名称必须为robots.txt。 rbotts.txt文件
在阻止目录时,请注意,如果是为了防止目录爬行,则必须注意目录名称中的“ /”。如果不带“ /”,则表示阻止访问该目录页面和目录下的页面,而带“ /”的上侧则意味着进入阻止目录下的内容页面。必须清楚地区分这两点。
为了使收录的内部页面更快地被搜索引擎使用,我们通常制作一个百度地图或Google地图,然后使用Sitemap:+ 网站地图,此命令可以快速引导搜索引擎蜘蛛进入。您的地图页面即可获取网站内页。当网站有太多的死链接需要处理时,我们可以使用机器人来阻止这些页面,以防止网站由于死链接而被百度降级。
在SEO优化过程中,了解和控制蜘蛛非常重要。关于robot.txt的编写,我们先来谈一谈,希望能帮助您编写有助于搜索引擎优化的robots.txt文件。
本文起源于:老琦SEO“如何编写robots.txt文件以进行搜索引擎优化”