抓取网页flash(网络爬虫的结构(一)——爬虫爬行(二))

优采云 发布时间: 2022-04-20 08:49

  抓取网页flash(网络爬虫的结构(一)——爬虫爬行(二))

  网络爬虫:爬虫一般是指网络爬虫,也称为网络蜘蛛、蠕虫等,是按照一定的规则自动爬取网页内容的程序或脚本。

  爬虫原理:传统的网络爬虫从一个或多个网页的初始url开始,在这些初始url的内容中获取新的url,在抓取网页的过程中不断地从当前页面中提取新的url。进入url栏,直到满足预定条件才停止。

  一些具有特定策略的爬虫具有更复杂的工作流程,例如专注的爬虫。它们会根据某些网页分析算法过滤掉与主题无关的连接,只将那些与主题相关的连接保留在 URL 队列中。某种搜索策略从队列中选择下一个要爬取的网页url,重复上述过程,直到达到系统的某个条件。

  爬虫分类:

  根据系统结构和实现技术,网络爬虫大致可以分为以下几种:一般网络爬虫、聚焦网络爬虫、增量网络爬虫和深度网络爬虫。实际的网络爬虫系统通常是几种爬虫技术的组合。实现。

  (1)万能网络爬虫

  一般网络爬虫的爬取对象从一些*敏*感*词*URL扩展到整个Web,主要针对门户网站搜索引擎和大型Web服务提供商采集数据。

  爬虫的结构大致可以分为几个部分:初始url、url队列、页面爬取模块、页面分析模块、连接过滤模块、页面数据库采集。

  常用的爬取策略有:深度优先策略、广度优先策略。

  (2)关注网络爬虫

  聚焦网络爬虫,也称为主题网络爬虫,是选择性地爬取与预定义主题相关的页面的网络爬虫。与一般的网络爬虫相比,专注爬虫只需要爬取与主题相关的页面,大大节省了硬件和网络资源,而且由于页面数量少,保存的页面更新也很快。信息需求。

  与普通网络爬虫相比,增加了聚焦网络爬虫,连接评价模块和内容评价模块。聚焦爬虫实现爬取策略的关键是评估页面内容和链接的重要性。不同的方法计算不同的重要性,导致链接的访问顺序不同。

  常用的爬取策略有:基于内容评估的爬取策略、基于连接结构评估的爬取策略、基于强化学习的爬取分类、基于上下文图的爬取策略。

  (3)增量网络爬虫

  增量网页抓取是指对下载的网页进行增量更新,只抓取新生成或更改的网页。可以在一定程度上保证爬取的页面尽可能的新。与周期性爬取和刷新页面的网络爬虫相比,增量爬虫只在需要时爬取新生成或更新的页面,不会重新下载没有变化的页面。更新爬取的网页减少了时间和空间的消耗,但这会增加爬取算法和复杂度和实现难度。

  增量网络爬虫的架构包括:爬取模块、排序模块、更新模块、本地页面集、待爬取url集和本地页面url集。

  (4)深度网络爬虫

  网页按存在方式可分为表层网页和深层网页。Surface Web指的是一些主要构成网页的静态网页,而Deep Web指的是那些动态网页,大部分内容只能通过用户提交一些关键词网页获取。Deep Web的可访问信息容量是Surface Web的数百倍,是互联网上规模最大、增长最快的新型信息资源。

  Deep Web爬虫架构包括六个基本功能模块(爬取控制器、解析器、表单分析器、响应分析器、LVS控制器)和两个爬虫内部数据结构(URL列表、LVS表)。其中,LVS(Label Value Set)表示标签/值集,用于表示填充表单的数据源。

  Deep Web爬虫的爬取过程中最重要的部分就是表单填充,它包括两种类型:基于领域知识的表单填充和基于网页结构分析的表单填充

  爬取目标分类

  基于着陆页特征

  爬虫基于这个特性爬取、存储和索引的对象一般是网站和网页。网页特征可以是网页的内容特征,也可以是网页的连接结构特征等。

  基于目标数据

  这类爬虫针对的是网页上的数据,抓取到的数据一般都符合一定的模式,或者可以转化或映射成目标数据。

  基于领域的概念

  建立目标领域的本体或字典,从语义角度分析主题中不同特征的重要性

  网络搜索策略

  网页的爬取策略可以分为深度优先、广度优先和最佳优先三种。其中,深度优先在很多情况下会导致爬虫陷入问题。目前,后两种方式最为常见。

  广度优先策略

  广度优先策略是指在爬取过程中,完成当前一级的搜索后,再进行下一级的搜索。

  为了覆盖尽可能多的页面,通常使用广度优先搜索方法。我们可以将广度优先搜索与网页过滤技术相结合,但缺点是随着抓取的网页数量的增加,会下载和过滤大量不相关的网页,从而降低算法的效率。

  最佳第一策略

  最佳优先级策略会根据一定的网页分析算法预测候选url与目标网页的相似度,或者与主题的相关性,选择评价最好的一个或几个url进行爬取。它仅在分析后访问网页。算法预测为“有用”的页面。因此,存在爬虫爬取路径中很多相关网页可能被忽略的问题。

  深度优先策略

  深度优先策略会从起始网页开始,选择一个url进入,分析网页中的url,选择一个进入,然后一个接一个地获取连接,直到处理完一个路由,返回起始入口,选择下一条路线。这个缺点也是致命的,因为过度深入的捕捉往往导致捕捉到的数据价值很低。同时,捕获深度直接影响捕获命中率和捕获效率。与其他两种策略相比,这种策略很少使用。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线