ROBOTS开发界的两个办法：搜索机器人访问密码

优采云发布时间: 2021-05-07 20:06

　　1.这部分内容不在Internet上

　　2.页面设置访问密码

　　3.使用IP阻止功能阻止来自百度和Google的搜索

　　4.页面使用标记代码，详细信息如下：

　　我们知道搜索引擎拥有自己的“搜索机器人”（ROBOTS），并且通过Internet上的这些ROBOTS沿着Web链接（通常是http和src链接）继续抓取信息以建立自己的数据库。

　　对于网站经理和内容提供商，有时会有一些他们不想被ROBOTS抓取并公开的网站内容。为了解决此问题，ROBOTS开发社区提供了两种方法：一种是robots.txt，另一种是The Robots META标签。

　　一、 robots.txt

　　1、什么是robots.txt？

　　robots.txt是纯文本文件。通过在此文件中声明网站的一部分，您不想被机器人访问，网站的部分或全部内容可以从搜索引擎收录中排除，或者仅将搜索引擎指定为收录指定的内容。

　　搜索机器人访问网站时，将首先检查该网站的根目录中是否存在robots.txt。如果找到，搜索引擎将根据文件的内容确定访问范围。如果文件不存在，搜索机器人将沿着链接进行爬网。

　　robots.txt必须放置在站点的根目录中，并且文件名必须全部小写。

　　网站网址

　　相应robots.txt的网址

　　：80 /

　　：80 / robots.txt

　　：1234 /

　　：1234 / robots.txt

　　2、 robots.txt的语法

　　“ robots.txt”文件收录一个或多个记录，这些记录由空行分隔（以CR，CR / NL或NL作为终止符）。每条记录的格式如下：

　　“：”。

　　在此文件中，可以使用＃进行注释，具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行User-agent开头，后跟几行Disallow行，详细信息如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“ robots.txt”文件中，如果有多个用户代理记录，则意味着该协议将限制多个机械手。对于此文件，必须至少有一个用户代理记录。如果此项的值设置为*，则该协议对任何机械手均有效。在“ robots.txt”文件中，只能有一个记录，例如“ User-agent：*”。

　　不允许：

　　此项的值用于描述您不想访问的URL。此URL可以是完整路径，也可以是完整路径的一部分。机械手将无法访问任何以Disallow开头的URL。例如，“ Disallow：/ help”不允许搜索引擎访问/help.html和/help/index.html，而“ Disallow：/ help /”则允许机器人访问/help.html，但不能访问/ help / index 。 .html。

　　任何禁止记录为空，表示允许访问网站的所有部分。 “ /robots.txt”文件中必须至少有一个Disallow记录。如果“ /robots.txt”为空文件，则此网站对所有搜索引擎机器人均处于打开状态。

　　以下是robots.txt的一些基本用法：

　　[code =“ java”]禁止所有搜索引擎访问网站的任何部分：

　　用户代理：*

　　不允许：/ code]

　　l允许所有机器人访问

　　用户代理：*

　　不允许：

　　或者您可以创建一个空文件“ /robots.txt”文件

　　l禁止所有搜索引擎访问网站的多个部分（在以下示例中为cgi-bin，tmp和专用目录）

　　用户代理：*

　　不允许：/ cgi-bin /

　　不允许：/ tmp /

　　不允许：/ private /

　　l禁止访问搜索引擎（下例中为BadBot）

　　用户代理：BadBot

　　不允许：/

　　l仅允许访问特定的搜索引擎（在下面的示例中为WebCrawler）

　　用户代理：WebCrawler

　　不允许：

　　用户代理：*

　　不允许：/

　　3、常见搜索引擎的机器人名称

　　名称搜索引擎

　　Baiduspider

　　踏板车

　　ia_archiver

　　Googlebot

　　FAST-WebCrawler

　　S饮

　　MSNBOT

　　4、 robots.txt示例

　　以下是一些著名网站的robots.txt：

　　5、常见的robots.txt错误

　　l顺序相反：

　　写错了

　　用户代理：*

　　不允许：GoogleBot

　　正确的应该是：

　　用户代理：GoogleBot

　　不允许：*

　　l将多个禁止的命令放在一行上：

　　例如，错误地写为

　　不允许：/ css / / cgi-bin / / images /

　　正确的应该是

　　不允许：/ css /

　　不允许：/ cgi-bin /

　　不允许：/ images /

　　l行前有很多空格

　　例如，写为

　　不允许：/ cgi-bin /

　　尽管标准中未提及，但此方法容易出现问题。

　　l 404重定向到另一个页面：

　　当漫游器访问许多没有robots.txt文件的网站时，它将自动404重定向到另一个HTML页面。目前，Robot通常会以与robots.txt文件相同的方式处理HTML页面文件。尽管通常没有问题，但是最好将空白的robots.txt文件放在网站的根目录中。

　　l大写。例如

　　用户代理：EXCITE

　　禁止：

　　尽管标准不区分大小写，但目录和文件名应小写：

　　user-agent：GoogleBot

　　不允许：

　　l语法中只有Disallow，不允许！

　　错误的书写方式是：

　　用户代理：百度蜘蛛

　　不允许：/ john /

　　允许：/ jane /

　　我忘了斜杠/

　　写错了：

　　用户代理：百度蜘蛛

　　不允许：css

　　正确的应该是

　　用户代理：百度蜘蛛

　　不允许：/ css /

　　以下小型工具专门检查robots.txt文件的有效性：

　　二、机器人META标签

　　1、什么是机器人的META标签

　　Robots.txt文件主要用于限制整个网站或目录的搜索引擎访问，而Robots META标记主要用于特定页面。与其他META标签一样（例如使用的语言，页面说明，关键词等），Robots META标签也放置在页面上，专门用来告诉搜索引擎机器人如何抓取页。具体形式类似（请参见粗体部分）：

　　Robots的META标签没有大小写区别，name =“ Robots”表示所有搜索引擎，对于特定的搜索引擎，可以将其写为name =“ BaiduSpider”。内容部分中有四个命令选项：index，noindex，follow和nofollow。这些命令用“，”分隔。

　　INDEX命令告诉搜索机器人抓取页面；

　　FOLLOW指令指示搜索机器人可以继续沿页面上的链接进行爬网；

　　Robots Meta标签的默认值是INDEX和FOLLOW，除了inktomi之外。为此，默认值为INDEX，NOFOLLOW。

　　有四种组合方式：

　　它可以写为；

　　可以写为

　　请注意，上述robots.txt和Robots META标签限制搜索引擎机器人（ROBOTS）抓取网站内容只是一个规则，它需要搜索引擎机器人的配合，而不是每个机器人都遵守。

　　目前，大多数搜索引擎机器人似乎都遵守robots.txt的规则。对于Robots META标签，当前支持的标签并不多，但它们正在逐渐增加。例如，著名的搜索引擎GOOGLE完全支持它，并且GOOGLE还添加了一个“存档”命令，该命令可以限制GOOGLE是否保留网页快照。例如：

　　2、机器人META标签编写：

　　Robots的META标签没有大小写区别，name =“ Robots”表示所有搜索引擎，对于特定的搜索引擎，可以写为name =“ BaiduSpider”。内容部分中有四个命令选项：index，noindex，follow和nofollow。这些命令用“，”分隔。

　　INDEX命令告诉搜索机器人抓取页面；

　　FOLLOW指令指示搜索机器人可以继续沿页面上的链接进行爬网；

　　Robots Meta标签的默认值是INDEX和FOLLOW，除了inktomi之外。为此，默认值为INDEX，NOFOLLOW。

　　有四种组合方式：

　　其中

　　可以写为

　　;

　　可以写为

　　请注意，上述robots.txt和Robots META标签限制了搜索引擎机器人（ROBOTS）抓取网站内容，这只是一条规则，需要搜索引擎机器人的配合。并非每个机器人都遵守。

　　目前，大多数搜索引擎机器人似乎都遵守robots.txt的规则。对于Robots META标签，当前支持的标签并不多，但它们正在逐渐增加。例如，著名的搜索引擎GOOGLE完全支持它，并且GOOGLE还添加了一个“存档”命令，该命令可以限制GOOGLE是否保留网页快照。例如：

　　这意味着获取网站中的页面并按照页面中的链接进行操作，但不要将页面的网页快照保留在GOOLGE上

0

2021-05-07

网站内容搜索

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

ROBOTS开发界的两个办法：搜索机器人访问密码

0 个评论

发起人

AI时代内容工厂

ROBOTS开发界的两个办法：搜索机器人访问密码

0 个评论

发起人

相关问题