网站内容抓取( 石家庄seo优化说道:2018年5月25日上午10:55360官方的教程转载过来了)

优采云 发布时间: 2022-01-26 09:05

  网站内容抓取(

石家庄seo优化说道:2018年5月25日上午10:55360官方的教程转载过来了)

  

  石家庄seo优化说:

  2018 年 5 月 25 日上午 10:55

  360官方教程转载于此。

  【机器人简介】

  robots.txt 是一个协议。它是搜索引擎在访问 网站 时查看的第一个文件。其目的是告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。

  蜘蛛访问站点时,首先会检查站点根目录下是否存在robots.txt。如果存在,spider会根据文件内容判断访问范围;如果文件不存在,所有蜘蛛都可以访问 网站 上所有没有密码保护的页面。

  【详细介绍】

  1、User-agent 用于描述搜索引擎机器人的名称。在\robots.txt\文件中,如果有多个User-agent记录,则表示多个机器人会被\robots.txt\限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在\robots.txt\文件中,只能有一条记录,如\User-agent:*\。

  360 搜索支持用户代理命令,包括使用通配符的用户代理命令。

  2、Disallow 命令指定不推荐用于收录 的文件和目录。

  Disallow 值可以是完整路径或路径的非空前缀。以 Disallow 项的值开头的 URL 将不会被机器人访问。

  3、Allow 命令为 收录 指定推荐的文件和目录。

  Allow 值用于描述一组希望被访问的 URL。它的值也可以是完整的路径或路径的前缀。以 Allow 项的值开头的 URL 允许机器人访问。

  User-agent:*这里*代表所有类型的搜索引擎,*是通配符,*也可以替换成其他蜘蛛名称,如:Googlebot、yisouspider,意思是屏蔽特定搜索引擎的蜘蛛

  Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

  Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

  Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

  禁止:/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有以 \.htm\ 为后缀的 URL(包括子目录)。

  Disallow: /*?* 禁止访问 网站 中收录问号 (?) 的所有 URL

  Disallow: /.jpg$ 禁止网页中的所有 .jpg 图片

  Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。

  允许:/cgi-bin/这里的定义是允许cgi-bin目录下的目录被爬取

  允许:这里定义/tmp允许爬取tmp的整个目录

  允许:.htm$ 只允许访问以 \.htm\ 为后缀的 URL。

  允许:.gif$ 允许抓取网页和 gif 文件

  Sitemap:网站map,告诉爬虫这个页面是网站map

  【注意事项】

  1、机器人文件通常放在根目录下;

  2、只有当你的网站收录你不想被搜索引擎搜索到的内容时,你才需要使用robots.txt文件收录;

  3、360搜索会对这种形式的robots进行全匹配url,所以在写robots的时候要小心,最好尽量写准确的url通配符,不推荐pan匹配

  用户代理:*

  不允许:*#*

  或

  用户代理:*

  不允许:#

  360 搜索会将 # 视为所有匹配项,因此不会抓取所有 url

  同理,如果写成:Disallow:#.html,则不会抓取所有以html为后缀的url

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线