通过关键词采集文章采集api(聚焦网络爬虫又称工作原理工作流程抓取策略(组图))
优采云 发布时间: 2021-11-13 20:07通过关键词采集文章采集api(聚焦网络爬虫又称工作原理工作流程抓取策略(组图))
网络主要功能采集
网络数据采集是指通过网络爬虫或网站公共API等从网站获取数据信息。
常用网络采集系统网络爬虫工作原理工作流爬取策略网络爬虫策略一般网络爬虫使用的基本概念
通用网络爬虫也称为全网络爬虫。爬取对象从一些*敏*感*词*网址扩展到整个Web,主要是门户搜索引擎和大型Web服务提供商采集数据。
专注于网络爬虫
聚焦网络爬虫,也称为主题网络爬虫,是指有选择地抓取与预定义主题相关的页面的网络爬虫。
1) 基于内容评价的爬取策略
De Bra在网络爬虫中引入了文本相似度的计算方法,提出了Fish Search算法。该算法以用户输入的查询词为主题,将收录查询词的页面视为与该主题相关的页面。它的局限性在于它无法评估页面与主题的相关性。
Herseovic 改进了 Fish Search 算法,提出了 Shark Search 算法,该算法使用空间向量模型来计算页面与主题之间的相关性。使用基于连续值计算链接值的方法,不仅可以计算出哪些抓取的链接与主题相关,还可以量化相关性的大小。
2) 基于链接结构评估的爬行策略
PageRank算法的基本原理是,如果一个网页被多次引用,它可能是一个非常重要的网页。如果一个网页没有被多次引用,而是被一个重要的网页引用,那么它也可能是一个重要的网页。一个网页的重要性均匀地传递给它所指的网页。
3) 基于强化学习的爬行策略
将增强学习引入聚焦爬虫,使用贝叶斯分类器根据整个网页文本和链接文本对超链接进行分类,并计算每个链接的重要性,从而确定链接访问的顺序。
4) 基于上下文映射的爬取策略
通过建立上下文映射来学习网页之间的抓取策略,该策略可以训练机器学习系统,通过该系统可以计算从当前页面到相关网页的距离,并首先访问较近页面中的链接。
增量网络爬虫
增量式网络爬虫是指对下载的网页进行增量更新,只抓取新生成或变化的网页的爬虫。它可以在一定程度上保证被爬取的页面尽可能的新。
深度网络爬虫
根据存在的方式,网页可以分为表面网页和深层网页。表面网页是指可以被传统搜索引擎索引的页面,主要是可以通过超链接访问的静态网页。大多数深层网页无法通过静态链接获取,隐藏在搜索表单后面,只有用户提交一些关键词才能获取的网页。
深度网络爬虫架构包括6个基本功能模块:
爬虫控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬虫内部数据结构(URL列表和LVS表)。其中,LVS(Label Value Set)表示标签和值的集合,用于表示填写表单的数据源。在爬虫过程中,最重要的部分是表单填写,包括基于领域知识的表单填写和基于网页结构分析的表单填写。