网站内容抓取( 石家庄seo优化说道:2018年5月25日上午10:55360官方的教程转载过来了)
优采云 发布时间: 2022-01-26 09:05网站内容抓取(
石家庄seo优化说道:2018年5月25日上午10:55360官方的教程转载过来了)
石家庄seo优化说:
2018 年 5 月 25 日上午 10:55
360官方教程转载于此。
【机器人简介】
robots.txt 是一个协议。它是搜索引擎在访问 网站 时查看的第一个文件。其目的是告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。
蜘蛛访问站点时,首先会检查站点根目录下是否存在robots.txt。如果存在,spider会根据文件内容判断访问范围;如果文件不存在,所有蜘蛛都可以访问 网站 上所有没有密码保护的页面。
【详细介绍】
1、User-agent 用于描述搜索引擎机器人的名称。在\robots.txt\文件中,如果有多个User-agent记录,则表示多个机器人会被\robots.txt\限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在\robots.txt\文件中,只能有一条记录,如\User-agent:*\。
360 搜索支持用户代理命令,包括使用通配符的用户代理命令。
2、Disallow 命令指定不推荐用于收录 的文件和目录。
Disallow 值可以是完整路径或路径的非空前缀。以 Disallow 项的值开头的 URL 将不会被机器人访问。
3、Allow 命令为 收录 指定推荐的文件和目录。
Allow 值用于描述一组希望被访问的 URL。它的值也可以是完整的路径或路径的前缀。以 Allow 项的值开头的 URL 允许机器人访问。
User-agent:*这里*代表所有类型的搜索引擎,*是通配符,*也可以替换成其他蜘蛛名称,如:Googlebot、yisouspider,意思是屏蔽特定搜索引擎的蜘蛛
Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录
Disallow: /require/ 这里的定义是禁止爬取require目录下的目录
Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录
禁止:/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有以 \.htm\ 为后缀的 URL(包括子目录)。
Disallow: /*?* 禁止访问 网站 中收录问号 (?) 的所有 URL
Disallow: /.jpg$ 禁止网页中的所有 .jpg 图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。
允许:/cgi-bin/这里的定义是允许cgi-bin目录下的目录被爬取
允许:这里定义/tmp允许爬取tmp的整个目录
允许:.htm$ 只允许访问以 \.htm\ 为后缀的 URL。
允许:.gif$ 允许抓取网页和 gif 文件
Sitemap:网站map,告诉爬虫这个页面是网站map
【注意事项】
1、机器人文件通常放在根目录下;
2、只有当你的网站收录你不想被搜索引擎搜索到的内容时,你才需要使用robots.txt文件收录;
3、360搜索会对这种形式的robots进行全匹配url,所以在写robots的时候要小心,最好尽量写准确的url通配符,不推荐pan匹配
用户代理:*
不允许:*#*
或
用户代理:*
不允许:#
360 搜索会将 # 视为所有匹配项,因此不会抓取所有 url
同理,如果写成:Disallow:#.html,则不会抓取所有以html为后缀的url