网站内容抓取(robots协议（也称为爬虫协议、机器人协议等）的全称)

优采云发布时间: 2022-01-17 18:10

　　动态网站不用担心，搜索引擎可以正常抓取动态链接，但是使用robots文件可以轻松提升动态网站的抓取效率。我们都知道robots协议（也称为爬虫协议、机器人协议等）的全称是“Robots Exclusion Protocol”。无法抓取该页面。Robots协议的本质是网站与搜索引擎爬虫之间的通信方式，用于引导搜索引擎更好地抓取网站内容。

　　百度官方建议所有网站都使用robots文件，以更好地利用蜘蛛爬行。事实上，机器人不仅告诉搜索引擎什么不能被抓取，也是网站优化的重要工具之一。

　　robots文件实际上是一个txt文件。其基本写法如下：

　　User-agent：*这里*代表所有类型的搜索引擎，*是通配符

　　Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

　　Disallow: /require/ 这个定义是禁止爬取require目录下的目录

　　Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

　　禁止：/cgi-bin/*.htm 禁止访问/cgi-bin/ 目录中所有以“.htm”为后缀的URL（包括子目录）。

　　Disallow: /*?* 禁止访问网站中的所有动态页面

　　Disallow: /.jpg$ 禁止抓取来自网络的所有 .jpg 图像

　　Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。

　　allow: /cgi-bin/这个定义是允许cgi-bin目录下的目录被爬取

　　allow: /tmp 这里的定义是允许爬取tmp的整个目录

　　允许：.htm$ 只允许访问以“.htm”为后缀的 URL。

　　允许：.gif$ 允许抓取网页和 gif 格式的图片

　　在网站优化方面，robots文件用于告诉搜索引擎哪些内容是重要的，建议robots文件禁止抓取不重要的内容。不重要内容的典型特征：网站的搜索结果页面。

　　对于静态网站，我们可以使用 Disallow: /*?* 来禁用动态页面爬取。但是对于动态的网站，就不能这么简单了。不过对于动态网站站长来说，不用太担心，搜索引擎现在可以正常抓取动态页面了。那么在写的时候一定要注意，可以具体写搜索文件的名字。例如，你的网站是一个长长的列表，在 search.asp? 之后，那么你可以这样写：

　　禁止：/search.asp?*

　　这样就可以屏蔽搜索结果页面。写完可以去百度站长平台查看机器人，看看有没有错误！您可以输入 URL 以检查它是否正常工作。

　　这里吴晓阳建议动态网站的站长一定要使用robots文件来屏蔽不重要内容的动态链接，提高蜘蛛的抓取效率！

　　本文来源：吴晓阳目录

0

2022-01-17

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(robots协议（也称为爬虫协议、机器人协议等）的全称)

0 个评论

发起人

AI时代内容工厂

网站内容抓取(robots协议（也称为爬虫协议、机器人协议等）的全称)

0 个评论

发起人

相关问题