网络数据采集
优采云 发布时间: 2020-08-14 11:32网络数采集的主要功能
网络数据采集是指通过网路爬虫或网站公开API等方法从网站上获取数据信息
常用的网路采集系统网路爬虫工作原理工作流程抓取策略网路爬虫策略用到的基本概念通用网路爬虫
通用网路爬虫又称全网爬虫,爬行对象从一些*敏*感*词*URL扩充到整个Web,主要为门户站点搜索引擎和小型Web服务提供商采集数据。
聚焦网络爬虫
聚焦网路爬虫又称主题网路爬虫,是指选择性地爬行这些与预先定义好的主题相关的页面的网路爬虫。
1)基于内容评价的爬行策略
De Bra将文本相似度的估算方式引入到网路爬虫中,提出了Fish Search算法。该算法将用户输入的查询词作为主题,收录查询词的页面被视为与主题相关的页面,其局限性在于难以评价页面与主题相关度的大小。
Herseovic对Fish Search算法进行了改进,提出了Shark Search算法,即借助空间向量模型估算页面与主题的相关度大小。采用基于连续值估算链接价值的方式,不但可以估算出什么抓取的链接和主题相关,还可以得到相关度的量化大小。
2)基于链接结构评价的爬行策略
PageRank算法的基本原理是,如果一个网页多次被引用,则可能是很重要的网页,如果一个网页没有被多次引用,但是被重要的网页引用,也有可能是重要的网页。一个网页的重要性被平均地传递到它所引用的网页上。
3)基于提高学习的爬行策略
将提高学习引入聚焦爬虫,利用贝叶斯分类器,根据整个网页文本和链接文本对超链接进行分类,为每位链接估算出重要性,从而决定链接的访问次序。
4)基于语境图的爬行策略
通过构建语境图学习网页之间的相关度的爬行策略,该策略可训练一个机器学习系统,通过该系统可估算当前页面到相关Web页面的距离,距离逾的页面中的链接优先访问。
增量式网络爬虫
增量式网络爬虫是指对已下载网页采取增量式更新而且只爬行新形成的或则已然发生变化网页的爬虫,它还能在一定程度上保证所爬行的页面是尽可能新的页面。
深度网路爬虫
网页按存在形式可以分为表层网页和深层网页。表层网页是指传统搜索引擎可以索引的页面,以超链接可以抵达的静态网页为主。深层网页是什么大部分内容不能通过静态链接获取的,隐藏在搜索表单后的,只有用户递交一些关键词能够获得的网页。
深层网路爬虫体系结构收录6个基本功能模块:
爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬虫内部数据结构(URL列表和LVS表)。其中,LVS(Label Value Set)表示标签和数值集合,用来表示填充表单的数据源。在爬取过程中,最重要的部份就是表单填写,收录基于领域知识的表单填写和基于网页结构剖析的表单填写两种。