Robots搜索蜘蛛访问一个站点时应该如何写呢文件?
优采云 发布时间: 2021-08-08 02:20Robots搜索蜘蛛访问一个站点时应该如何写呢文件?
在做网站优化的时候,一般来说网站或多或少的页面对排名不是很有帮助但有害。这时候就需要robots文件了。
Robots 文件是在搜索引擎中访问网站 时首先查看的文件。就像一个网站看门管家,对网站优化很重要。搜索蜘蛛访问站点时,首先会检查站点根目录下是否有robots文件。如果存在,搜索机器人会根据文件内容确定访问范围;如果该文件不存在,则所有搜索蜘蛛将能够访问网站 上所有不受密码保护的页面。
那么Robots文件应该怎么写呢?这里有一些写作参考供大家参考:
1:学习编写robots文件是网站优化过程中必不可少的一部分,前提是你熟悉网站url和url的原理以及网站程序目录。为什么?蜘蛛是通过 url 爬行的。文件的具体格式,以阿里云主机的根目录为例,格式如下:
提示:域名=根目录。
/htdocs/=域名
/htdocs/skin/=域名/skin/
/htdocs/skin/css/=域名/skin/stivle.css/
二:写robots注意事项:冒号后面有一个空格,必须用英文模式写。注意字母的大小写。这个比较严格,需要特别注意。例如:
禁止:/ab/abc/
允许:/ab/abc/
用户代理:百度蜘蛛
3:操作流程及编写方法:在桌面上创建一个.txt文件,在该文件中写入robots规则。
1:我们先来看看术语的定义。不同的搜索引擎有不同的蜘蛛。
[1]:User-Agent:蜘蛛规则(1)百度蜘蛛规则User-agent:Baiduspider。(2)谷歌User-Agent:Googlebot(3)必应User-agent:Bingbot( 4)360 User-Agent: 360Spider (5)宜搜User-Agent: Yisouspider (6)搜狗User-Agent: Sogouspider (7)雅虎User-Agent: Yahoo! SlurpUser-Agent: *表示对所有蜘蛛
[2]: Disallow:指禁止爬取。
[3]:允许:指允许抓取。
2:写法:以上三种格式一起使用,例如:我们想把/skin/文件夹下的一些文件屏蔽,但是我们想抓取/skin/文件夹下的/css/文件夹,写技巧:先禁止爬取/skin/文件夹,再允许爬取/css/文件夹。
Disallow: /skin/ 表示禁止爬取 /skin/ 文件夹
Allow:/css/表示允许爬取/skin/文件夹中的/css/文件夹
注意:前后有斜线表示文件夹。
3:符号名词解释:
(1)*wildcard: 代表所有。例如:
User-Agent: * 表示所有蜘蛛
Allow: /skin/* 表示允许收录 /skin/ 文件夹下的所有文件
(2)$终结符:表示结束。比如不允许抓取.js结尾的文件,写成:Disallow: /*.js$
网站robots 完整版文档编写及注意事项
总之,在做网站优化时,Robots文件的写入过程要严格按照规则进行。当然,最重要的还是写完后检查,防止写错导致蜘蛛抓不到。