ROBOTS开发界的两个办法:搜索机器人访问密码
优采云 发布时间: 2021-05-07 20:06ROBOTS开发界的两个办法:搜索机器人访问密码
1.这部分内容不在Internet上
2.页面设置访问密码
3.使用IP阻止功能阻止来自百度和Google的搜索
4.页面使用标记代码,详细信息如下:
我们知道搜索引擎拥有自己的“搜索机器人”(ROBOTS),并且通过Internet上的这些ROBOTS沿着Web链接(通常是http和src链接)继续抓取信息以建立自己的数据库。
对于网站经理和内容提供商,有时会有一些他们不想被ROBOTS抓取并公开的网站内容。为了解决此问题,ROBOTS开发社区提供了两种方法:一种是robots.txt,另一种是The Robots META标签。
一、 robots.txt
1、什么是robots.txt?
robots.txt是纯文本文件。通过在此文件中声明网站的一部分,您不想被机器人访问,网站的部分或全部内容可以从搜索引擎收录中排除,或者仅将搜索引擎指定为收录指定的内容。
搜索机器人访问网站时,将首先检查该网站的根目录中是否存在robots.txt。如果找到,搜索引擎将根据文件的内容确定访问范围。如果文件不存在,搜索机器人将沿着链接进行爬网。
robots.txt必须放置在站点的根目录中,并且文件名必须全部小写。
网站网址
相应robots.txt的网址
:80 /
:80 / robots.txt
:1234 /
:1234 / robots.txt
2、 robots.txt的语法
“ robots.txt”文件收录一个或多个记录,这些记录由空行分隔(以CR,CR / NL或NL作为终止符)。每条记录的格式如下:
“:”。
在此文件中,可以使用#进行注释,具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行User-agent开头,后跟几行Disallow行,详细信息如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“ robots.txt”文件中,如果有多个用户代理记录,则意味着该协议将限制多个机械手。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则该协议对任何机械手均有效。在“ robots.txt”文件中,只能有一个记录,例如“ User-agent:*”。
不允许:
此项的值用于描述您不想访问的URL。此URL可以是完整路径,也可以是完整路径的一部分。机械手将无法访问任何以Disallow开头的URL。例如,“ Disallow:/ help”不允许搜索引擎访问/help.html和/help/index.html,而“ Disallow:/ help /”则允许机器人访问/help.html,但不能访问/ help / index 。 .html。
任何禁止记录为空,表示允许访问网站的所有部分。 “ /robots.txt”文件中必须至少有一个Disallow记录。如果“ /robots.txt”为空文件,则此网站对所有搜索引擎机器人均处于打开状态。
以下是robots.txt的一些基本用法:
[code =“ java”]禁止所有搜索引擎访问网站的任何部分:
用户代理:*
不允许:/ code]
l允许所有机器人访问
用户代理:*
不允许:
或者您可以创建一个空文件“ /robots.txt”文件
l禁止所有搜索引擎访问网站的多个部分(在以下示例中为cgi-bin,tmp和专用目录)
用户代理:*
不允许:/ cgi-bin /
不允许:/ tmp /
不允许:/ private /
l禁止访问搜索引擎(下例中为BadBot)
用户代理:BadBot
不允许:/
l仅允许访问特定的搜索引擎(在下面的示例中为WebCrawler)
用户代理:WebCrawler
不允许:
用户代理:*
不允许:/
3、常见搜索引擎的机器人名称
名称搜索引擎
Baiduspider
踏板车
ia_archiver
Googlebot
FAST-WebCrawler
S饮
MSNBOT
4、 robots.txt示例
以下是一些著名网站的robots.txt:
5、常见的robots.txt错误
l顺序相反:
写错了
用户代理:*
不允许:GoogleBot
正确的应该是:
用户代理:GoogleBot
不允许:*
l将多个禁止的命令放在一行上:
例如,错误地写为
不允许:/ css / / cgi-bin / / images /
正确的应该是
不允许:/ css /
不允许:/ cgi-bin /
不允许:/ images /
l行前有很多空格
例如,写为
不允许:/ cgi-bin /
尽管标准中未提及,但此方法容易出现问题。
l 404重定向到另一个页面:
当漫游器访问许多没有robots.txt文件的网站时,它将自动404重定向到另一个HTML页面。目前,Robot通常会以与robots.txt文件相同的方式处理HTML页面文件。尽管通常没有问题,但是最好将空白的robots.txt文件放在网站的根目录中。
l大写。例如
用户代理:EXCITE
禁止:
尽管标准不区分大小写,但目录和文件名应小写:
user-agent:GoogleBot
不允许:
l语法中只有Disallow,不允许!
错误的书写方式是:
用户代理:百度蜘蛛
不允许:/ john /
允许:/ jane /
我忘了斜杠/
写错了:
用户代理:百度蜘蛛
不允许:css
正确的应该是
用户代理:百度蜘蛛
不允许:/ css /
以下小型工具专门检查robots.txt文件的有效性:
二、机器人META标签
1、什么是机器人的META标签
Robots.txt文件主要用于限制整个网站或目录的搜索引擎访问,而Robots META标记主要用于特定页面。与其他META标签一样(例如使用的语言,页面说明,关键词等),Robots META标签也放置在页面上,专门用来告诉搜索引擎机器人如何抓取页。具体形式类似(请参见粗体部分):
Robots的META标签没有大小写区别,name =“ Robots”表示所有搜索引擎,对于特定的搜索引擎,可以将其写为name =“ BaiduSpider”。内容部分中有四个命令选项:index,noindex,follow和nofollow。这些命令用“,”分隔。
INDEX命令告诉搜索机器人抓取页面;
FOLLOW指令指示搜索机器人可以继续沿页面上的链接进行爬网;
Robots Meta标签的默认值是INDEX和FOLLOW,除了inktomi之外。为此,默认值为INDEX,NOFOLLOW。
有四种组合方式:
它可以写为;
可以写为
请注意,上述robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取网站内容只是一个规则,它需要搜索引擎机器人的配合,而不是每个机器人都遵守。
目前,大多数搜索引擎机器人似乎都遵守robots.txt的规则。对于Robots META标签,当前支持的标签并不多,但它们正在逐渐增加。例如,著名的搜索引擎GOOGLE完全支持它,并且GOOGLE还添加了一个“存档”命令,该命令可以限制GOOGLE是否保留网页快照。例如:
2、机器人META标签编写:
Robots的META标签没有大小写区别,name =“ Robots”表示所有搜索引擎,对于特定的搜索引擎,可以写为name =“ BaiduSpider”。内容部分中有四个命令选项:index,noindex,follow和nofollow。这些命令用“,”分隔。
INDEX命令告诉搜索机器人抓取页面;
FOLLOW指令指示搜索机器人可以继续沿页面上的链接进行爬网;
Robots Meta标签的默认值是INDEX和FOLLOW,除了inktomi之外。为此,默认值为INDEX,NOFOLLOW。
有四种组合方式:
其中
可以写为
;
可以写为
请注意,上述robots.txt和Robots META标签限制了搜索引擎机器人(ROBOTS)抓取网站内容,这只是一条规则,需要搜索引擎机器人的配合。并非每个机器人都遵守。
目前,大多数搜索引擎机器人似乎都遵守robots.txt的规则。对于Robots META标签,当前支持的标签并不多,但它们正在逐渐增加。例如,著名的搜索引擎GOOGLE完全支持它,并且GOOGLE还添加了一个“存档”命令,该命令可以限制GOOGLE是否保留网页快照。例如:
这意味着获取网站中的页面并按照页面中的链接进行操作,但不要将页面的网页快照保留在GOOLGE上