大神观摩:他半年把python学到了能出书的程度

优采云 发布时间: 2021-05-31 23:15

  

大神观摩:他半年把python学到了能出书的程度

  

  [大神观察]他学习了Python,以至于他可以在半年内出版书籍

  他是一家外国公司的知名技术架构师。他在业余时间教了半年的 Python,编写了两本 Python 技术书籍。他是怎么做到的? 5 月 14 日(第 四) 周)晚上 8 点,我们邀请您现场观看。

  robots.txt 文件是什么?

  搜索引擎使用程序机器人(也称为蜘蛛)自动访问互联网上的网页并获取网页信息。

  你可以在你的网站中创建一个纯文本文件robots.txt,在这个文件中声明你不想被robots访问的网站部分,这样部分或全部内容网站是搜索引擎收录可以省略,或者搜索引擎只能由收录指定。

  robots.txt 文件在哪里?

  robots.txt 文件应该放在 网站 的根目录下。例如,当robots访问一个网站(例如)时,它会首先检查该文件是否存在于网站中。如果机器人找到该文件,它会根据文件内容确定其访问权限。范围。

  网站 网址

  相应robots.txt的网址

  :80/

  :80/robots.txt

  :1234/

  :1234/robots.txt

  robots.txt 文件的格式

  “robots.txt”文件收录一条或多条记录,以空行分隔(以 CR、CR/NL 或 NL 作为终止符)。每条记录的格式如下:

  ":".

  在这个文件中,可以使用#进行标注,具体用法与UNIX中的约定相同。这个文件中的记录通常以一行或多行User-agent开头,后面跟着几行Disallow,具体如下:

  用户代理:

  此项的值用于描述搜索引擎机器人的名称。在“ robots.txt”文件中,如果有多个用户代理记录,则表示该协议将限制多个机械手。对于这个文件,必须至少有一个 User-agent 记录。如果此项的值设置为*,则该协议对任何机械手均有效。 “robots.txt”文件中只能有“User-agent:*”等一条记录。

  禁止:

  此项的值用于描述您不想访问的 URL。此 URL 可以是完整路径或其中的一部分。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问/help.html和/help/index.html,而“Disallow:/help/”允许机器人访问/help.html,但不允许访问/help/指数。 .html。如果任何 Disallow 记录为空,则表示允许访问 网站 的所有部分。 “ /robots.txt”文件中必须至少有一个Disallow记录。如果“/robots.txt”是一个空文件,这个网站对所有搜索引擎机器人都是开放的。

  robots.txt 文件使用示例

  示例1.禁止所有搜索引擎访问网站的任何部分

  用户代理:*

  禁止:/

  示例 2. 允许所有机器人访问(或者您可以创建一个空文件“/robots.txt”文件)

  用户代理:*

  禁止:

  示例 3. 禁止访问某个搜索引擎

  用户代理:BadBot

  禁止:/

  示例 4. 允许访问某个搜索引擎

  用户代理:baiduspider

  禁止:

  用户代理:*

  禁止:/

  例子 5. 一个简单的例子

  在这个例子中,网站有三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。

  需要注意的是,每个目录必须单独声明,不能写成“Disallow: /cgi-bin/ /tmp/”。

  User-agent: 后面的 * 有特殊含义,代表“任何机器人”,所以像“Disallow: /tmp/*”或“Disallow:*.gif”这样的记录不能出现在这个文件中。

  用户代理:*

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/~joe/

  Robots.txt 文件参考资料

  robots.txt 文件更具体的设置请参考以下链接:

  ·Web 服务器管理员指南机器人排除协议

  ·HTML机器人排除协议作者指南

  ·1994 年的原创协议描述,目前已部署

  ·修订后的互联网草案规范,尚未完成或实施

  转载于:

  相关资源:ARIMA时间序列预测的Matlab实现

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线