搜索引擎收录的robot.txt文件是干嘛的呢?

优采云 发布时间: 2021-04-28 21:19

  搜索引擎收录的robot.txt文件是干嘛的呢?

  网站管理员知道,在大多数情况下,搜索引擎收录的网站页面不是我们想要访问的页面收录。这确实很烦人,尤其是网站后端地址。百度收录,则网站的安全性具有很大的隐患。此时,可以反映robot.txt文件的角色。只要文件中没有蜘蛛的访问权限,百度就不会收录您不想成为收录的页面,因此您可以集中网站的权重,这对于搜索引擎非常有用优化。

  如何编写robots.txt文件以优化搜索引擎

  在介绍robot.txt的内容之前,让我先谈谈这是干什么用的。从字面上看,机器人代表机器人。从后缀名称来看,它是一个txt文件。通过该名称,可以看出该文件是搜索引擎蜘蛛机器人的文件。所谓的roots.txt文件是漫游器协议(也称为采集器协议,漫游器协议等)。这是搜索引擎蜘蛛到达您之后的第一个文件网站。通过此文件,搜索引擎蜘蛛可以了解网站可以对那些内容进行爬网,而不能对那些页面进行爬网。当然,我们也可以直接阻止蜘蛛的访问。在了解了该文件的用途之后,下面将详细介绍robots.txt文件的写入方法。

  robots.txt语句:

  用户代理:*此处代表的所有搜索引擎类型均为通配符

  不允许:/ admin /此处的定义是禁止对admin目录下的目录进行爬网

  不允许:/ require /此处的定义是禁止对require目录下的目录进行爬网

  不允许:/ ABC /此处的定义是禁止对ABC目录下的目录进行爬网

  不允许:/cgi-bin/.htm禁止访问/ cgi-bin /目录中带有后缀“ .htm”的所有URL。

  不允许:/?*禁止访问网站中收录问号(?)的所有URL

  不允许:/.jpg$禁止在网络上抓取所有.jpg格式的图片

  不允许:/ab/adc.html禁止抓取ab文件夹下的adc.html文件。

  允许:/ cgi-bin /此处的定义是允许对cgi-bin目录下的目录进行爬网

  允许:此处定义/ tmp以允许对tmp的整个目录进行爬网

  允许:.htm $仅允许访问后缀为“ .htm”的URL。

  允许:.gif $允许抓取网页和gif格式的图像

  站点地图:网站地图告诉抓取者此页面是网站地图

  编写robots.txt的示例:

  1、禁止所有搜索引擎访问网站的所有部分

  用户代理:*

  不允许:/

  2、禁止百度将您的网站编入索引

  用户代理:百度蜘蛛

  不允许:/

  3、禁止Google将您的网站编入索引

  用户代理:Googlebot

  不允许:/

  4、禁止除Google之外的所有搜索引擎将您的网站编入索引

  用户代理:Googlebot

  不允许:

  用户代理:*

  不允许:/

  5、禁止除百度之外的所有搜索引擎为您的网站编制索引

  用户代理:百度蜘蛛

  不允许:

  用户代理:*

  不允许:/

  6、阻止蜘蛛访问某个目录

  (例如,禁止对admin \ css \ images建立索引)

  用户代理:*

  不允许:/ css /

  不允许:/ admin /

  不允许:/ images /

  7、允许访问目录中的某些URL

  用户代理:*

  允许:/ css / my

  允许:/ admin / html

  允许:/ images / index

  不允许:/ css /

  不允许:/ admin /

  不允许:/ images /

  在编写这些句子时,要特别注意的一件事是,冒号(:)和(/)之间必须有一个空格。如果未添加该空间,它将无法正常工作。通常将robots.txt文件放入网站的根目录中,并且名称必须为robots.txt。 rbotts.txt文件

  在阻止目录时,请注意,如果是为了防止目录爬行,则必须注意目录名称中的“ /”。如果不带“ /”,则表示阻止访问该目录页面和目录下的页面,而带“ /”的上侧则意味着进入阻止目录下的内容页面。必须清楚地区分这两点。

  为了使收录的内部页面更快地被搜索引擎使用,我们通常制作一个百度地图或Google地图,然后使用Sitemap:+ 网站地图,此命令可以快速引导搜索引擎蜘蛛进入。您的地图页面即可获取网站内页。当网站有太多的死链接需要处理时,我们可以使用机器人来阻止这些页面,以防止网站由于死链接而被百度降级。

  在SEO优化过程中,了解和控制蜘蛛非常重要。关于robot.txt的编写,我们先来谈一谈,希望能帮助您编写有助于搜索引擎优化的robots.txt文件。

  本文起源于:老琦SEO“如何编写robots.txt文件以进行搜索引擎优化”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线