搜索引擎收录的robot.txt文件是干嘛的呢？

优采云发布时间: 2021-04-28 21:19

　　网站管理员知道，在大多数情况下，搜索引擎收录的网站页面不是我们想要访问的页面收录。这确实很烦人，尤其是网站后端地址。百度收录，则网站的安全性具有很大的隐患。此时，可以反映robot.txt文件的角色。只要文件中没有蜘蛛的访问权限，百度就不会收录您不想成为收录的页面，因此您可以集中网站的权重，这对于搜索引擎非常有用优化。

　　如何编写robots.txt文件以优化搜索引擎

　　在介绍robot.txt的内容之前，让我先谈谈这是干什么用的。从字面上看，机器人代表机器人。从后缀名称来看，它是一个txt文件。通过该名称，可以看出该文件是搜索引擎蜘蛛机器人的文件。所谓的roots.txt文件是漫游器协议（也称为采集器协议，漫游器协议等）。这是搜索引擎蜘蛛到达您之后的第一个文件网站。通过此文件，搜索引擎蜘蛛可以了解网站可以对那些内容进行爬网，而不能对那些页面进行爬网。当然，我们也可以直接阻止蜘蛛的访问。在了解了该文件的用途之后，下面将详细介绍robots.txt文件的写入方法。

　　robots.txt语句：

　　用户代理：*此处代表的所有搜索引擎类型均为通配符

　　不允许：/ admin /此处的定义是禁止对admin目录下的目录进行爬网

　　不允许：/ require /此处的定义是禁止对require目录下的目录进行爬网

　　不允许：/ ABC /此处的定义是禁止对ABC目录下的目录进行爬网

　　不允许：/cgi-bin/.htm禁止访问/ cgi-bin /目录中带有后缀“ .htm”的所有URL。

　　不允许：/？*禁止访问网站中收录问号（？）的所有URL

　　不允许：/.jpg$禁止在网络上抓取所有.jpg格式的图片

　　不允许：/ab/adc.html禁止抓取ab文件夹下的adc.html文件。

　　允许：/ cgi-bin /此处的定义是允许对cgi-bin目录下的目录进行爬网

　　允许：此处定义/ tmp以允许对tmp的整个目录进行爬网

　　允许：.htm $仅允许访问后缀为“ .htm”的URL。

　　允许：.gif $允许抓取网页和gif格式的图像

　　站点地图：网站地图告诉抓取者此页面是网站地图

　　编写robots.txt的示例：

　　1、禁止所有搜索引擎访问网站的所有部分

　　用户代理：*

　　不允许：/

　　2、禁止百度将您的网站编入索引

　　用户代理：百度蜘蛛

　　不允许：/

　　3、禁止Google将您的网站编入索引

　　用户代理：Googlebot

　　不允许：/

　　4、禁止除Google之外的所有搜索引擎将您的网站编入索引

　　用户代理：Googlebot

　　不允许：

　　用户代理：*

　　不允许：/

　　5、禁止除百度之外的所有搜索引擎为您的网站编制索引

　　用户代理：百度蜘蛛

　　不允许：

　　用户代理：*

　　不允许：/

　　6、阻止蜘蛛访问某个目录

　　（例如，禁止对admin \ css \ images建立索引）

　　用户代理：*

　　不允许：/ css /

　　不允许：/ admin /

　　不允许：/ images /

　　7、允许访问目录中的某些URL

　　用户代理：*

　　允许：/ css / my

　　允许：/ admin / html

　　允许：/ images / index

　　不允许：/ css /

　　不允许：/ admin /

　　不允许：/ images /

　　在编写这些句子时，要特别注意的一件事是，冒号（:)和（/）之间必须有一个空格。如果未添加该空间，它将无法正常工作。通常将robots.txt文件放入网站的根目录中，并且名称必须为robots.txt。 rbotts.txt文件

　　在阻止目录时，请注意，如果是为了防止目录爬行，则必须注意目录名称中的“ /”。如果不带“ /”，则表示阻止访问该目录页面和目录下的页面，而带“ /”的上侧则意味着进入阻止目录下的内容页面。必须清楚地区分这两点。

　　为了使收录的内部页面更快地被搜索引擎使用，我们通常制作一个百度地图或Google地图，然后使用Sitemap：+ 网站地图，此命令可以快速引导搜索引擎蜘蛛进入。您的地图页面即可获取网站内页。当网站有太多的死链接需要处理时，我们可以使用机器人来阻止这些页面，以防止网站由于死链接而被百度降级。

　　在SEO优化过程中，了解和控制蜘蛛非常重要。关于robot.txt的编写，我们先来谈一谈，希望能帮助您编写有助于搜索引擎优化的robots.txt文件。

　　本文起源于：老琦SEO“如何编写robots.txt文件以进行搜索引擎优化”

0

2021-04-28

网站内部搜索引擎优化与外部搜索引擎优化的相同点

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎收录的robot.txt文件是干嘛的呢？

0 个评论

发起人

AI时代内容工厂

搜索引擎收录的robot.txt文件是干嘛的呢？

0 个评论

发起人

相关问题