自动抓取网页数据(文献综述:网络爬虫的工作原理及流程及工作流程)
优采云 发布时间: 2022-03-23 16:50自动抓取网页数据(文献综述:网络爬虫的工作原理及流程及工作流程)
文献评论
网络爬虫是可以根据预先设定的程序规则自动爬取网络信息的程序或脚本。Python语言为爬虫提供了丰富的第三方库,在网络爬虫技术上实现了阶段性飞跃,提高了数据获取和聚合的效率,降低了人力物力的消耗。[1][2]
数据清洗是数据预处理。直接从网上获取的数据存在很多问题,不适合直接分析,需要进行预处理。具体操作是对目标数据进行合并、清洗、变换和标准化,以满足后续建模和分析的需要。在这个过程中,可以提高数据的质量,从而提高数据分析的效率。[3]
数据可视化是利用图表等方式展示数据,有助于决策。数据分析是指利用一定的方法对采集到的数据进行分析,提取有用信息的过程。在庞大的第三方库的支持下,Python可以为各个领域的数据处理和分析提供支持。[4]
网络爬虫的工作原理及流程[1][2][5]
网络爬虫的主要工作通常可以分为三个模块:数据采集、数据排序、数据存储。不同形式的网络爬虫的过程基本相同:选择初始*敏*感*词*URL和等待URL,放入待爬取的URL队列;读取和解析DNS;根据网页爬取策略下载网页中需要的内容;以数据库或文件的形式存储数据;从待爬取的URL队列中获取新的URL,进行新一轮的数据爬取,直到满足停止爬取的条件。
网络爬虫的技术类型[2][5]
1 通用网络爬虫
面向整个互联网,初始*敏*感*词*URL根据不同的算法对整个互联网网页进行*敏*感*词*爬取,典型应用是搜索引擎。但是,通用爬虫也有很多弊端:比如返回的结果中收录大量无用的网页;又如,由于多媒体的出现,通用爬虫更难发现和获取信息。
2 专注于网络爬虫
抓取特定内容或功能的数据,并确保内容要求尽可能相关。又可细分为累积爬虫、增量爬虫和深网爬虫。与通用爬虫相比,针对性更强,一般用于专门的爬虫系统。爬取策略有很多种,包括广度优先爬取策略、深度优先爬取策略、大型站点优先爬取策略(页面数量多的站点优先爬取)和反向链接爬取策略(反向链接页面数量大)优先爬取)和爬取策略如 OPIC 策略、Partial 策略和 PageRank 策略。
其余内容已隐藏,需要支付5元才能查看本文全部内容文章!