大神观摩：他半年把python学到了能出书的程度

优采云发布时间: 2021-05-31 23:15

　　[大神观察]他学习了Python，以至于他可以在半年内出版书籍

　　他是一家外国公司的知名技术架构师。他在业余时间教了半年的 Python，编写了两本 Python 技术书籍。他是怎么做到的？ 5 月 14 日（第四）周）晚上 8 点，我们邀请您现场观看。

　　robots.txt 文件是什么？

　　搜索引擎使用程序机器人（也称为蜘蛛）自动访问互联网上的网页并获取网页信息。

　　你可以在你的网站中创建一个纯文本文件robots.txt，在这个文件中声明你不想被robots访问的网站部分，这样部分或全部内容网站是搜索引擎收录可以省略，或者搜索引擎只能由收录指定。

　　robots.txt 文件在哪里？

　　robots.txt 文件应该放在网站的根目录下。例如，当robots访问一个网站（例如）时，它会首先检查该文件是否存在于网站中。如果机器人找到该文件，它会根据文件内容确定其访问权限。范围。

　　网站网址

　　相应robots.txt的网址

　　:80/

　　:80/robots.txt

　　:1234/

　　:1234/robots.txt

　　robots.txt 文件的格式

　　“robots.txt”文件收录一条或多条记录，以空行分隔（以 CR、CR/NL 或 NL 作为终止符）。每条记录的格式如下：

　　":".

　　在这个文件中，可以使用#进行标注，具体用法与UNIX中的约定相同。这个文件中的记录通常以一行或多行User-agent开头，后面跟着几行Disallow，具体如下：

　　用户代理：

　　此项的值用于描述搜索引擎机器人的名称。在“ robots.txt”文件中，如果有多个用户代理记录，则表示该协议将限制多个机械手。对于这个文件，必须至少有一个 User-agent 记录。如果此项的值设置为*，则该协议对任何机械手均有效。 “robots.txt”文件中只能有“User-agent:*”等一条记录。

　　禁止：

　　此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如，“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html，而“Disallow:/help/”允许机器人访问/help.html，但不允许访问/help/指数。 .html。如果任何 Disallow 记录为空，则表示允许访问网站的所有部分。 “ /robots.txt”文件中必须至少有一个Disallow记录。如果“/robots.txt”是一个空文件，这个网站对所有搜索引擎机器人都是开放的。

　　robots.txt 文件使用示例

　　示例1.禁止所有搜索引擎访问网站的任何部分

　　用户代理：*

　　禁止：/

　　示例 2. 允许所有机器人访问（或者您可以创建一个空文件“/robots.txt”文件）

　　用户代理：*

　　禁止：

　　示例 3. 禁止访问某个搜索引擎

　　用户代理：BadBot

　　禁止：/

　　示例 4. 允许访问某个搜索引擎

　　用户代理：baiduspider

　　禁止：

　　用户代理：*

　　禁止：/

　　例子 5. 一个简单的例子

　　在这个例子中，网站有三个限制搜索引擎访问的目录，即搜索引擎不会访问这三个目录。

　　需要注意的是，每个目录必须单独声明，不能写成“Disallow: /cgi-bin/ /tmp/”。

　　User-agent: 后面的 * 有特殊含义，代表“任何机器人”，所以像“Disallow: /tmp/*”或“Disallow:*.gif”这样的记录不能出现在这个文件中。

　　用户代理：*

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/~joe/

　　Robots.txt 文件参考资料

　　robots.txt 文件更具体的设置请参考以下链接：

　　·Web 服务器管理员指南机器人排除协议

　　·HTML机器人排除协议作者指南

　　·1994 年的原创协议描述，目前已部署

　　·修订后的互联网草案规范，尚未完成或实施

　　转载于：

　　相关资源：ARIMA时间序列预测的Matlab实现

0

2021-05-31

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

大神观摩：他半年把python学到了能出书的程度

0 个评论

发起人