搜索引擎如何抓取网页(搜索引擎通过一种程序（又称spider）的文件中声明)

优采云发布时间: 2022-03-17 22:01

　　搜索引擎自动访问互联网上的网页，并通过程序机器人（又称蜘蛛）获取网页信息。

　　你可以在你的网站中创建一个纯文本文件robots.txt，在这个文件中声明你不想被robots访问的网站部分，这样网站可以将部分或全部内容从搜索引擎收录中排除，或者指定的搜索引擎只能收录指定内容。

　　robots.txt 文件应该放在网站根目录下。比如robots访问一个网站（例如），它会首先检查该文件是否存在于网站中。如果机器人找到该文件，它将根据文件的内容进行判断。其访问权限的范围。

　　网站网址

　　对应robots.txt的网址

　　:80/

　　:80/robots.txt

　　:1234/

　　:1234/robots.txt

　　“robots.txt”文件收录一条或多条以空行分隔的记录（以CR、CR/NL或NL结尾），每条记录的格式如下：

　　“：”。

　　#可用于该文件中的注释，具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行 User-agent 开头，后跟几行 Disallow，具体如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，则表示多个robots会受到该协议的限制。，必须至少有一个 User-agent 记录。如果此项的值设置为 *，则协议对任何机器人都有效。在“robots.txt”文件中，只能有一条“User-agent: *”记录。

　　禁止：

　　该项的值用来描述一个不想被访问的URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如，“Disallow: /help”不允许搜索引擎访问 /help.html 和 /help/index.html，而“Disallow:/help/”允许机器人访问 /help.html 但不允许 /help/index 。 html.

　　任何Disallow记录为空，表示网站的所有部分都被允许访问。 “/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件，则网站对所有搜索引擎机器人开放。

　　robots.txt 文件使用示例

　　示例1.阻止所有搜索引擎访问网站的任何部分

　　下载 robots.txt 文件

　　用户代理：*

　　不允许：/

　　示例2.允许所有机器人访问

　　（或者你可以创建一个空文件“/robots.txt”文件）

　　用户代理：*

　　禁止：

　　示例3.禁用对搜索引擎的访问

　　用户代理：BadBot

　　不允许：/

　　示例4.允许访问搜索引擎

　　用户代理：baiduspider

　　禁止：

　　用户代理：*

　　不允许：/

　　例子5.一个简单的例子

　　本例中，网站有三个目录限制搜索引擎的访问，即搜索引擎不会访问这三个目录。

　　需要注意的是，每个目录都必须单独声明，而不是“Disallow: /cgi-bin/ /tmp/”。

　　User-agent:后面的*有特殊含义，代表“任意机器人”，因此该文件中不能有“Disallow: /tmp/*”或“Disallow: *.gif”之类的记录。

　　用户代理：*

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　robots.txt文件更具体的设置请参考以下链接：

　　·Web 服务器管理员机器人排除协议指南

　　·机器人排除协议HTML作者指南

　　· 1994 年的原创协议描述，当前部署

　　·修订后的互联网草案规范，尚未完成或实施

0

2022-03-17

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎通过一种程序（又称spider）的文件中声明)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎通过一种程序（又称spider）的文件中声明)

0 个评论

发起人

相关问题