htmlunit抓取动态网页( robots协议（也称为爬虫协议、机器人协议等）的全称)

优采云发布时间: 2021-09-25 18:03

　　htmlunit抓取动态网页(

robots协议（也称为爬虫协议、机器人协议等）的全称)

　　动态网站不用担心，搜索引擎可以正常抓取动态链接，但是使用robots文件可以轻松提高动态网站的抓取效率。我们都知道robots协议（也叫爬虫协议、机器人协议等）的全称是“Robots Exclusion Protocol”。网站告诉搜索引擎哪些页面可以爬取，哪些页面通过Robots 协议爬取。无法抓取该页面。Robots协议的本质是网站与搜索引擎爬虫之间的通信方式，用于引导搜索引擎更好地抓取网站的内容。

　　百度官方建议所有网站使用robots文件，以更好地利用蜘蛛爬行。实际上，robots 不仅是告诉搜索引擎哪些不能抓取，也是网站优化的重要工具之一。

　　robots文件实际上是一个txt文件。基本措辞如下：

　　User-agent: * 其中*代表所有类型的搜索引擎，*是通配符

　　disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

　　Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

　　Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

　　禁止：/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有后缀为“.htm”的 URL（包括子目录）。

　　Disallow: /*?* 禁止访问网站中的所有动态页面

　　Disallow: /.jpg$ 禁止抓取网络上所有.jpg 格式的图片

　　Disallow:/ab/adc.html 禁止抓取ab文件夹下的adc.html文件。

　　Allow：这里定义了/cgi-bin/，允许爬取cgi-bin目录下的目录

　　Allow: /tmp 这里的定义是允许爬取tmp的整个目录

　　允许：.htm$ 只允许访问带有“.htm”后缀的 URL。

　　允许：.gif$ 允许抓取网页和 gif 格式的图像

　　在网站优化方面，robots文件用于告诉搜索引擎什么是重要的内容，推荐robots文件禁止爬取不重要的内容。不重要内容的典型代表：网站的搜索结果页。

　　对于静态网站，我们可以使用Disallow: /*?* 来禁止动态页面爬取。但是对于动态网站，你不能简单地做到这一点。不过对于动态网站的站长来说，就不用太担心了。搜索引擎现在可以正常抓取动态页面。所以在写的时候一定要注意，可以专门写到搜索文件的名字。例如，如果您的站点是 search.asp? 后面的一个长列表，那么您可以这样写：

　　禁止：/search.asp?*

　　这样就可以屏蔽搜索结果页面。写完之后可以在百度站长平台上查看robots，看看有没有错误！您可以输入 URL 来检查它是否正常工作。

　　在这里，吴晓阳建议动态网站的站长一定要用robots文件来屏蔽不重要的内容动态链接，提高蜘蛛的抓取效率！

　　本文来源：吴晓阳目录

0

2021-09-25

htmlunit抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

htmlunit抓取动态网页( robots协议（也称为爬虫协议、机器人协议等）的全称)

0 个评论

发起人

AI时代内容工厂

htmlunit抓取动态网页( robots协议（也称为爬虫协议、机器人协议等）的全称)

0 个评论

发起人

相关问题