大数据采集工具
优采云 发布时间: 2020-08-06 19:19大数据是当前最热门的话题. 对于一家公司而言,如果要构建自己的大数据平台,则必须至少了解该平台包括哪些流程:
1. 数据采集(采集)
2. 数据存储(存储)
3. 数据处理(过程)
4. 数据呈现(可视化,报告和监视)
其中,数据采集是必不可少的. 由于数据源庞大而复杂,因此如何确保数据采集的可靠性,准确性和质量尤为重要.
有许多大数据采集平台. 它们中的大多数提供高度可靠和可扩展的数据采集,并且抽象化输入,输出和中间缓冲区体系结构.
在这里,我主要介绍其中两个,以及最常用的两个: Flume和Logstash
Apache Flume
Flume依赖Java操作环境. 它使用代理作为处理单元. 每个代理都收录源,通道和*敏*感*词*组件. 源负责接收数据并将数据写入通道;通道负责存储数据,这里的存储类型有内存,文件,jdbc等;*敏*感*词*负责将通道中的数据发送到下一个处理节点. *敏*感*词*支持的不同目标类型包括HDFS,HBASE,Solr,Elasticsearch,File,Logger或其他Flume Agent.
可以将源上的数据复制到不同的通道,并且每个通道可以连接到不同数量的*敏*感*词*. 这样,具有不同配置的连接代理可以形成一个复杂的数据采集网络. 通过代理的配置,可以形成复杂的路由数据传输网络.
当然,flume具有更好的类可伸缩性. 它允许用户使用flume的SDK自定义源和*敏*感*词*.
Logstash
我相信每个人都听说过ELK. 所谓的ELK是指ElasticSearch系列中的elasticsearch(数据存储和数据处理),logstash(数据采集)和kibana(数据显示). Logstash还依赖JVM. 主要组件是输入,输出和过滤器. 配置相对简单. 通常将其同时用作ELK堆栈. 因此,如果数据系统使用ElasticSearch,则首选logstash.