php抓取网页指定内容(聚焦网络爬虫又称主题网络数采集的主要功能工作流程)
优采云 发布时间: 2022-03-16 03:18php抓取网页指定内容(聚焦网络爬虫又称主题网络数采集的主要功能工作流程)
网络号的主要功能采集
网络数据采集是指通过网络爬虫或网站公共API等从网站获取数据信息。
常用网络采集系统网络爬虫工作原理工作流程抓取策略网络爬虫策略使用的基本概念一般网络爬虫
万能网络爬虫,又称全网爬虫,爬取对象从一些*敏*感*词*URL延伸到整个网络,主要针对门户网站搜索引擎和大型网络服务商采集数据。
聚焦网络爬虫
聚焦网络爬虫,也称为主题网络爬虫,是选择性地爬取与预定义主题相关的页面的网络爬虫。
1)基于内容评价的爬取策略
De Bra 将文本相似度的计算方法引入网络爬虫,提出了 Fish Search 算法。该算法以用户输入的查询词为主题,将收录查询词的页面视为与该主题相关的页面。
Herseovic 对 Fish Search 算法进行了改进,提出了 Shark Search 算法,该算法使用空间向量模型来计算页面和主题之间的相关度。通过使用基于连续值计算链接值的方法,我们不仅可以计算出哪些捕获的链接与主题相关,而且可以得到相关性的量化大小。
2)基于链接结构评估的爬取策略
PageRank算法的基本原理是,如果一个网页被多次引用,它可能是一个重要的网页;如果一个网页没有被多次引用,而是被一个重要网页引用,那么它也可能是一个重要网页。一个网页的重要性同样传递给它所指的网页。
3)一种基于强化学习的爬行策略
在焦点爬虫中引入强化学习,利用贝叶斯分类器根据整个网页文本和链接文本对超链接进行分类,计算每个链接的重要性,从而确定链接的访问顺序。
4)基于上下文图的爬取策略
通过建立上下文图来学习网页之间相关性的爬取策略可以训练一个机器学习系统,通过该系统可以计算当前页面到相关网页的距离,并优先选择距离最近的页面中的链接访问。
增量网络爬虫
增量网络爬虫是指对下载的网页进行增量更新,只爬取新生成或更改的网页的爬虫。可以在一定程度上保证爬取的页面尽可能的新。
深度网络爬虫
网页按存在方式可分为表层网页和深层网页。表面网页是指可以被传统搜索引擎索引的页面,主要是可以通过超链接到达的静态网页。深度网页是大部分内容无法通过静态链接获取的网页,隐藏在搜索表单后面,只能通过用户提交一些关键词获取。
深网爬虫架构由6个基本功能模块组成:
爬虫控制器、解析器、表单分析器、表单处理程序、响应分析器、LVS 控制器和两个爬虫内部数据结构(URL 列表和 LVS 表)。其中,LVS(Label Value Set)代表标签和值集,用来表示填写表格的数据源。在爬取过程中,最重要的部分是表单填写,包括基于领域知识的表单填写和基于网页结构分析的表单填写。