htmlunit抓取动态网页( robots协议(也称为爬虫协议、机器人协议等)的全称)

优采云 发布时间: 2021-09-25 18:03

  htmlunit抓取动态网页(

robots协议(也称为爬虫协议、机器人协议等)的全称)

  

  动态网站不用担心,搜索引擎可以正常抓取动态链接,但是使用robots文件可以轻松提高动态网站的抓取效率。我们都知道robots协议(也叫爬虫协议、机器人协议等)的全称是“Robots Exclusion Protocol”。网站 告诉搜索引擎哪些页面可以爬取,哪些页面通过Robots 协议爬取。无法抓取该页面。Robots协议的本质是网站与搜索引擎爬虫之间的通信方式,用于引导搜索引擎更好地抓取网站的内容。

  百度官方建议所有网站使用robots文件,以更好地利用蜘蛛爬行。实际上,robots 不仅是告诉搜索引擎哪些不能抓取,也是网站优化的重要工具之一。

  robots文件实际上是一个txt文件。基本措辞如下:

  User-agent: * 其中*代表所有类型的搜索引擎,*是通配符

  disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录

  Disallow: /require/ 这里的定义是禁止爬取require目录下的目录

  Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录

  禁止:/cgi-bin/*.htm 禁止访问 /cgi-bin/ 目录中所有后缀为“.htm”的 URL(包括子目录)。

  Disallow: /*?* 禁止访问 网站 中的所有动态页面

  Disallow: /.jpg$ 禁止抓取网络上所有.jpg 格式的图片

  Disallow:/ab/adc.html 禁止抓取ab文件夹下的adc.html文件。

  Allow:这里定义了/cgi-bin/,允许爬取cgi-bin目录下的目录

  Allow: /tmp 这里的定义是允许爬取tmp的整个目录

  允许:.htm$ 只允许访问带有“.htm”后缀的 URL。

  允许:.gif$ 允许抓取网页和 gif 格式的图像

  在网站优化方面,robots文件用于告诉搜索引擎什么是重要的内容,推荐robots文件禁止爬取不重要的内容。不重要内容的典型代表:网站的搜索结果页。

  对于静态网站,我们可以使用Disallow: /*?* 来禁止动态页面爬取。但是对于动态网站,你不能简单地做到这一点。不过对于动态网站的站长来说,就不用太担心了。搜索引擎现在可以正常抓取动态页面。所以在写的时候一定要注意,可以专门写到搜索文件的名字。例如,如果您的站点是 search.asp? 后面的一个长列表,那么您可以这样写:

  禁止:/search.asp?*

  这样就可以屏蔽搜索结果页面。写完之后可以在百度站长平台上查看robots,看看有没有错误!您可以输入 URL 来检查它是否正常工作。

  在这里,吴晓阳建议动态网站的站长一定要用robots文件来屏蔽不重要的内容动态链接,提高蜘蛛的抓取效率!

  本文来源:吴晓阳目录

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线