网站内容抓取( 石家庄seo优化说道：2018年5月25日上午10:55360官方的教程转载过来了)

优采云发布时间: 2022-01-26 09:05

　　网站内容抓取(

石家庄seo优化说道：2018年5月25日上午10:55360官方的教程转载过来了)

　　石家庄seo优化说：

　　2018 年 5 月 25 日上午 10:55

　　360官方教程转载于此。

　　【机器人简介】

　　robots.txt 是一个协议。它是搜索引擎在访问网站时查看的第一个文件。其目的是告诉搜索引擎哪些页面可以爬取，哪些页面不能爬取。

　　蜘蛛访问站点时，首先会检查站点根目录下是否存在robots.txt。如果存在，spider会根据文件内容判断访问范围；如果文件不存在，所有蜘蛛都可以访问网站上所有没有密码保护的页面。

　　【详细介绍】

　　1、User-agent 用于描述搜索引擎机器人的名称。在\robots.txt\文件中，如果有多个User-agent记录，则表示多个机器人会被\robots.txt\限制。对于此文件，必须至少有一个 User-agent 记录。如果此项的值设置为 *，则对任何机器人都有效。在\robots.txt\文件中，只能有一条记录，如\User-agent:*\。

　　360 搜索支持用户代理命令，包括使用通配符的用户代理命令。

　　2、Disallow 命令指定不推荐用于收录的文件和目录。

　　Disallow 值可以是完整路径或路径的非空前缀。以 Disallow 项的值开头的 URL 将不会被机器人访问。

　　3、Allow 命令为收录指定推荐的文件和目录。

　　Allow 值用于描述一组希望被访问的 URL。它的值也可以是完整的路径或路径的前缀。以 Allow 项的值开头的 URL 允许机器人访问。

　　User-agent：*这里*代表所有类型的搜索引擎，*是通配符，*也可以替换成其他蜘蛛名称，如：Googlebot、yisouspider，意思是屏蔽特定搜索引擎的蜘蛛

　　Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

　　Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

　　Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

　　禁止：/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有以 \.htm\ 为后缀的 URL（包括子目录）。

　　Disallow: /*?* 禁止访问网站中收录问号 (?) 的所有 URL

　　Disallow: /.jpg$ 禁止网页中的所有 .jpg 图片

　　Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。

　　允许：/cgi-bin/这里的定义是允许cgi-bin目录下的目录被爬取

　　允许：这里定义/tmp允许爬取tmp的整个目录

　　允许：.htm$ 只允许访问以 \.htm\ 为后缀的 URL。

　　允许：.gif$ 允许抓取网页和 gif 文件

　　Sitemap：网站map，告诉爬虫这个页面是网站map

　　【注意事项】

　　1、机器人文件通常放在根目录下；

　　2、只有当你的网站收录你不想被搜索引擎搜索到的内容时，你才需要使用robots.txt文件收录;

　　3、360搜索会对这种形式的robots进行全匹配url，所以在写robots的时候要小心，最好尽量写准确的url通配符，不推荐pan匹配

　　用户代理：*

　　不允许：*#*

　　或

　　用户代理：*

　　不允许：#

　　360 搜索会将 # 视为所有匹配项，因此不会抓取所有 url

　　同理，如果写成：Disallow:#.html，则不会抓取所有以html为后缀的url

0

2022-01-26

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取( 石家庄seo优化说道：2018年5月25日上午10:55360官方的教程转载过来了)

0 个评论

发起人

AI时代内容工厂

网站内容抓取( 石家庄seo优化说道：2018年5月25日上午10:55360官方的教程转载过来了)

0 个评论

发起人

相关问题