数据采集技术包括哪几方面 优缺点分别是哪些
优采云 发布时间: 2020-08-26 14:15数据采集技术包括哪几方面 优缺点分别是哪些
1、通过各软件厂商开放数据插口,实现不同软件数据的互联互通。这是目前最为常见的一种数据对接方法。
2、优势:接口对接方法的数据可靠性与价值较高,一般不存在数据重复的情况;数据可通过插口实时传输,满足数据实时应用要求。
3、缺点:①接口开发费用高;②需协调多个软件厂商,工作量大且容易烂尾;③可扩展性不高,如:由于新业务须要各软件系统开发出新的业务模块,其和大数据平台之间的数据插口也需做相应更改和变动,甚至要推翻先前的所有数据插口编码,工作量大、耗时长。
4、软件机器人是目前比较前沿的软件数据对接技术,即能采集客户端软件数据,也能采集网站网站中的软件数据。
5、常见的是博为小帮软件机器人,产品设计原则为“所见即所得”,即不需要软件厂商配合的情况下,采集软件界面上的数据,输出的结果是结构化的数据库或则excel表。
6、如果只须要界面上的业务数据,或者碰到软件厂商不配合/倒闭、数据库剖析困难的情况下, 利用软件机器人采集数据更可取,尤其是详情页数据的采集功能比较有特色。
7、技术特征如下:①无需原软件厂商配合;②兼容性强,可采集汇聚Windows平台各类软件系统数据;③输出结构化数据;④即配即用,实施周期短、简单高效;⑤配置简单,不用编程,每个人都可以DIY一个软件机器人;⑥价格相对人工和插口,降低不少。
8、缺点:采集软件数据的实时性有一定限制。
9、网络爬虫是模拟客户端发生网路恳求,接收恳求响应,一种根据一定的规则,自动地抓取万维网信息的程序或则脚本。
10、爬虫采集数据的缺点:①输出数据多为非结构化数据;②只能采集网站数据,容易受网站反爬机制影响;③使用人群窄小,需要有专业编程知识就能玩转。
11、数据的采集融合,开放数据库是最直接的一种形式。
12、优势:开放数据库方法可以直接从目标数据库中获取须要的数据,准确性高,实时性也有保证,是最直接、便捷的一种形式。
13、缺点:开放数据库方法也须要协调各软件厂商开放数据库,这须要看对方的意愿,一般出于安全考虑,不会开放;一个平台假如同时联接多个软件厂商的数据库,并实时获取数据,这对平台性能也是巨大挑战。