文章采集平台(大数据采集平台——Fluentd特殊的平台)
优采云 发布时间: 2022-03-14 04:01文章采集平台(大数据采集平台——Fluentd特殊的平台)
在大数据采集平台中,有这样一个特殊的平台,每个部分都是可定制的,你可以通过简单的配置在任何地方采集日志。这是一个非常火的大数据采集平台,很多企业都在使用,所以本期将介绍这个特殊的平台——Fluentd。
“什么是流利的?
Fluentd 是一个为处理数据流而设计的开源数据采集器,有点像 syslogd,但使用 JSON 作为数据格式。它采用插件式架构,具有高扩展性和高可用性,同时也实现了高可靠的信息转发。
根据(Y)分析(Y)可知,Fluentd是通过Fluent+d得到的,d形象地表明它作为一个守护进程运行。官网将其描述为数据采集器。在使用中,我们可以先将各种来源的信息发送到Fluentd,然后Fluentd根据配置通过不同的插件将信息转发到不同的地方,比如文件,SaaS平台,数据库甚至可以转发到另一个Fluentd。
官网:《Fluentd的作用》
官网给出的两张图可以让你非常直观的了解Fluentd的作用。
在使用 Fluentd 之前,日志系统的状态:
使用 Fluentd 后,日志系统的状态:
机制图:
“Fluentd 的特点
1)易于安装2)占用空间小3)半结构化数据记录4)灵活的插件机制5)可靠缓冲6)日志转发“Fluentd部署和架构 Fluentd 部署与 Flume 非常相似:
Fluentd 的架构设计与 Flume 相同:
Fluentd 的 Input/Buffer/Output 与 Flume 的 Source/Channel/Sink 非常相似。
输入
Input负责接收数据或主动抓取数据。支持syslog、http、file tail等
缓冲
缓冲区负责数据采集的性能和可靠性,可以配置文件或内存等不同类型的缓冲区。
输出
Output 负责将数据输出到目的地,例如文件、AWS S3 或其他 Fluentd。
“Fluentd 的技术栈
“Fluentd 的结构
由于结构简单,Fluentd 的核心仅收录 3000 行 Ruby。Fluentd 从各种输入源采集事件并将它们写入输出*敏*感*词*。例如:输入源:HTTP、Syslog、Apache Log 输出源:文件、邮件、RDBMS 数据库、NoSQL 存储
下图展示了输入输出的基本思路:
FLuentd 的可扩展性很强,客户可以自定义(Ruby)输入/缓冲/输出。Fluentd 在各方面都与 Flume 相似。不同的是,它是使用Ruby开发的,Footprint会更小,但也带来了跨平台的问题,无法支持Windows平台。此外,使用 JSON 统一的数据/日志格式是它的另一个特点。相比 Flumed,配置相对简单。