php禁止网页抓取(什么是robots.txt文件搜索引擎使用程序自动访问互联网)

优采云发布时间: 2022-04-13 16:36

　　一、什么是 robots.txt 文件

　　搜索引擎利用蜘蛛程序自动访问互联网上的网页，获取网页信息。当蜘蛛访问一个网站时，它会首先检查网站的根域下是否有一个名为robots.txt的纯文本文件，这个文件用来指定蜘蛛在你的网站爬取范围在 .您可以在网站中创建 robots.txt，在文件中声明您不想被搜索引擎收录搜索的网站部分或指定搜索engine 只是收录特定的部分。

　　请注意，robots.txt 文件仅在您的网站收录您不希望被搜索引擎收录搜索的内容时才需要。如果您想要搜索引擎上的所有内容收录网站，请不要创建 robots.txt 文件。

　　二、robots.txt 文件格式

　　“robots.txt”文件收录一条或多条以空行分隔的记录（称为CR、CR/NL或NL），每条记录的格式如下：

　　":"

　　#可用于该文件中的注释，具体用法与UNIX中的约定相同。该文件中的记录通常以一行或多行 User-agent 开头，后接几行 Disallow 和 Allow 行，具体如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，则表示多个机器人会受到“robots.txt”的限制。对于此文件，必须至少有一个 User-agent 记录。如果此项的值设置为 *，则对任何机器人都有效。在“robots.txt”文件中，“User-agent:*”只能有一条记录。如果在“robots.txt”文件中，添加“User-agent: SomeBot”和几行 Disallow 和 Allow 行，则名称“SomeBot”仅受“User-agent: SomeBot”后面的 Disallow 和 Allow 行限制。

　　禁止：

　　该项的值用于描述一组不想被访问的URL。该值可以是完整路径，也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如，“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html，而“Disallow:/help/”允许机器人访问/help.html、/helpabc。 html，但不能访问 /help/index.html。 “Disallow:”表示允许机器人访问网站的所有URL，且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件，则网站对所有搜索引擎机器人开放。

　　允许：

　　此项的值用于描述一组您希望访问的 URL。与 Disallow 项类似，该值可以是完整路径，也可以是路径前缀。以 Allow 项的值开头的 URL 是允许机器人访问。例如“允许：/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站的所有 URL 默认情况下都是 Allow，因此 Allow 通常与 Disallow 结合使用，以允许访问某些网页，同时禁止访问所有其他 URL。

　　使用“*”和“$”：

　　Baiduspider 支持使用通配符“*”和“$”来模糊匹配 url。

　　"$" 匹配行终止符。

　　“*”匹配零个或多个任意字符。

　　注意：我们会严格遵守robots的相关协议，请注意区分您不想被爬取的目录或收录的大小写，我们会对robots中写入的文件和文件进行处理不想被爬取，收录必须完全匹配，否则robots协议不会生效。

　　三、robots.txt 文件的放置位置

　　robots.txt 文件应该放在网站根目录下。例如，当蜘蛛访问一个网站（例如）时，它会首先检查该文件是否存在于网站中。如果蜘蛛找到文件，它会根据文件的内容进行判断。其访问权限的范围。

0

2022-04-13

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(什么是robots.txt文件搜索引擎使用程序自动访问互联网)

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(什么是robots.txt文件搜索引擎使用程序自动访问互联网)

0 个评论

发起人

相关问题