博客搜索引擎优化教程(搜索引擎收录的网站页面是干嘛的.txt文件)
优采云 发布时间: 2021-10-09 02:01博客搜索引擎优化教程(搜索引擎收录的网站页面是干嘛的.txt文件)
站长都知道,很多时候搜索引擎收录的网站页面并不是我们想要它收录的页面。这真的很烦人,尤其是网站一旦后端地址被百度收录,那么网站的安全性将是一个很大的隐患。这时候robot.txt文件的作用就可以体现出来了,只要在文件Access中屏蔽了蜘蛛,百度就无法收录你不想成为收录的页面,这样可以集中网站的权重,对搜索引擎优化非常有利。
在介绍robot.txt的编写之前,先说一下这个东西是干什么用的。从字面上看,robots 代表机器人。从后缀名来看,是一个txt文件。通过这个名字,可以看出这个文件是搜索引擎蜘蛛机器人的文件。所谓roots.txt文件就是Robots协议(也叫爬虫协议、机器人协议等),是你网站之后搜索引擎蜘蛛访问的第一个文件。通过这个文件,搜索引擎蜘蛛可以了解到网站那些内容可以爬取,但是那些页面不能爬取。当然,我们也可以直接屏蔽蜘蛛的访问。了解了这个文件是干什么的之后,下面就来详细介绍一下robots.txt文件的写法。
robots.txt 声明:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
robots.txt 编写示例:
1、禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /
2、禁止百度索引你的网站
User-agent: Baiduspider
Disallow: /
3、禁止Google索引你的网站
User-agent: Googlebot
Disallow: /
4、禁止除Google外的一切搜索引擎索引你的网站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
5、禁止除百度外的一切搜索引擎索引你的网站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
6、禁止蜘蛛访问某个目录
(例如禁止admin\css\images被索引)
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
7、允许访问某个目录中的某些特定网址
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
编写这些语句时要特别注意的一件事是冒号 (:) 和 (/) 之间必须有一个空格。如果不添加此空间,它将不起作用。robots.txt文件一般放在网站根目录下,名字必须是robots.txt。
阻塞目录的时候注意,如果是为了防止爬取目录,一定要注意目录名中的“/”。不带“/”表示阻止访问该目录页面和该目录下的页面,带“/”表示进入被阻止目录下的内容页面。这两点一定要区分清楚。
为了让搜索引擎更快收录我们的内部页面,我们通常会制作一个百度地图或者谷歌地图,然后,Sitemap:+网站地图,这个命令可以快速引导搜索引擎蜘蛛去你的地图page 抓取 网站 内页。当网站的死链接太多处理起来很麻烦时,我们可以使用robots来屏蔽这些页面,避免网站因为死链接被百度降级。
在SEO优化过程中,对蜘蛛的理解和控制非常重要。关于robot.txt的写法,先说这个,希望能帮助大家写出有利于搜索引擎优化的robots.txt文件。
请注明:河北保定SEO »如何写有利于搜索引擎优化的robots.txt文件
WordPress站点案例