抓取网页flash(网络爬虫的结构（一）——爬虫爬行（二）)

优采云发布时间: 2022-04-20 08:49

　　网络爬虫：爬虫一般是指网络爬虫，也称为网络蜘蛛、蠕虫等，是按照一定的规则自动爬取网页内容的程序或脚本。

　　爬虫原理：传统的网络爬虫从一个或多个网页的初始url开始，在这些初始url的内容中获取新的url，在抓取网页的过程中不断地从当前页面中提取新的url。进入url栏，直到满足预定条件才停止。

　　一些具有特定策略的爬虫具有更复杂的工作流程，例如专注的爬虫。它们会根据某些网页分析算法过滤掉与主题无关的连接，只将那些与主题相关的连接保留在 URL 队列中。某种搜索策略从队列中选择下一个要爬取的网页url，重复上述过程，直到达到系统的某个条件。

　　爬虫分类：

　　根据系统结构和实现技术，网络爬虫大致可以分为以下几种：一般网络爬虫、聚焦网络爬虫、增量网络爬虫和深度网络爬虫。实际的网络爬虫系统通常是几种爬虫技术的组合。实现。

　　(1）万能网络爬虫

　　一般网络爬虫的爬取对象从一些*敏*感*词*URL扩展到整个Web，主要针对门户网站搜索引擎和大型Web服务提供商采集数据。

　　爬虫的结构大致可以分为几个部分：初始url、url队列、页面爬取模块、页面分析模块、连接过滤模块、页面数据库采集。

　　常用的爬取策略有：深度优先策略、广度优先策略。

　　(2）关注网络爬虫

　　聚焦网络爬虫，也称为主题网络爬虫，是选择性地爬取与预定义主题相关的页面的网络爬虫。与一般的网络爬虫相比，专注爬虫只需要爬取与主题相关的页面，大大节省了硬件和网络资源，而且由于页面数量少，保存的页面更新也很快。信息需求。

　　与普通网络爬虫相比，增加了聚焦网络爬虫，连接评价模块和内容评价模块。聚焦爬虫实现爬取策略的关键是评估页面内容和链接的重要性。不同的方法计算不同的重要性，导致链接的访问顺序不同。

　　常用的爬取策略有：基于内容评估的爬取策略、基于连接结构评估的爬取策略、基于强化学习的爬取分类、基于上下文图的爬取策略。

　　(3）增量网络爬虫

　　增量网页抓取是指对下载的网页进行增量更新，只抓取新生成或更改的网页。可以在一定程度上保证爬取的页面尽可能的新。与周期性爬取和刷新页面的网络爬虫相比，增量爬虫只在需要时爬取新生成或更新的页面，不会重新下载没有变化的页面。更新爬取的网页减少了时间和空间的消耗，但这会增加爬取算法和复杂度和实现难度。

　　增量网络爬虫的架构包括：爬取模块、排序模块、更新模块、本地页面集、待爬取url集和本地页面url集。

　　(4）深度网络爬虫

　　网页按存在方式可分为表层网页和深层网页。Surface Web指的是一些主要构成网页的静态网页，而Deep Web指的是那些动态网页，大部分内容只能通过用户提交一些关键词网页获取。Deep Web的可访问信息容量是Surface Web的数百倍，是互联网上规模最大、增长最快的新型信息资源。

　　Deep Web爬虫架构包括六个基本功能模块（爬取控制器、解析器、表单分析器、响应分析器、LVS控制器）和两个爬虫内部数据结构（URL列表、LVS表）。其中，LVS（Label Value Set）表示标签/值集，用于表示填充表单的数据源。

　　Deep Web爬虫的爬取过程中最重要的部分就是表单填充，它包括两种类型：基于领域知识的表单填充和基于网页结构分析的表单填充

　　爬取目标分类

　　基于着陆页特征

　　爬虫基于这个特性爬取、存储和索引的对象一般是网站和网页。网页特征可以是网页的内容特征，也可以是网页的连接结构特征等。

　　基于目标数据

　　这类爬虫针对的是网页上的数据，抓取到的数据一般都符合一定的模式，或者可以转化或映射成目标数据。

　　基于领域的概念

　　建立目标领域的本体或字典，从语义角度分析主题中不同特征的重要性

　　网络搜索策略

　　网页的爬取策略可以分为深度优先、广度优先和最佳优先三种。其中，深度优先在很多情况下会导致爬虫陷入问题。目前，后两种方式最为常见。

　　广度优先策略

　　广度优先策略是指在爬取过程中，完成当前一级的搜索后，再进行下一级的搜索。

　　为了覆盖尽可能多的页面，通常使用广度优先搜索方法。我们可以将广度优先搜索与网页过滤技术相结合，但缺点是随着抓取的网页数量的增加，会下载和过滤大量不相关的网页，从而降低算法的效率。

　　最佳第一策略

　　最佳优先级策略会根据一定的网页分析算法预测候选url与目标网页的相似度，或者与主题的相关性，选择评价最好的一个或几个url进行爬取。它仅在分析后访问网页。算法预测为“有用”的页面。因此，存在爬虫爬取路径中很多相关网页可能被忽略的问题。

　　深度优先策略

　　深度优先策略会从起始网页开始，选择一个url进入，分析网页中的url，选择一个进入，然后一个接一个地获取连接，直到处理完一个路由，返回起始入口，选择下一条路线。这个缺点也是致命的，因为过度深入的捕捉往往导致捕捉到的数据价值很低。同时，捕获深度直接影响捕获命中率和捕获效率。与其他两种策略相比，这种策略很少使用。

0

2022-04-20

抓取网页flash

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页flash(网络爬虫的结构（一）——爬虫爬行（二）)

0 个评论

发起人