文章采集平台(大数据采集平台——Fluentd特殊的平台)

优采云发布时间: 2022-03-14 04:01

　　在大数据采集平台中，有这样一个特殊的平台，每个部分都是可定制的，你可以通过简单的配置在任何地方采集日志。这是一个非常火的大数据采集平台，很多企业都在使用，所以本期将介绍这个特殊的平台——Fluentd。

　　“什么是流利的？

　　Fluentd 是一个为处理数据流而设计的开源数据采集器，有点像 syslogd，但使用 JSON 作为数据格式。它采用插件式架构，具有高扩展性和高可用性，同时也实现了高可靠的信息转发。

　　根据（Y）分析（Y）可知，Fluentd是通过Fluent+d得到的，d形象地表明它作为一个守护进程运行。官网将其描述为数据采集器。在使用中，我们可以先将各种来源的信息发送到Fluentd，然后Fluentd根据配置通过不同的插件将信息转发到不同的地方，比如文件，SaaS平台，数据库甚至可以转发到另一个Fluentd。

　　官网：《Fluentd的作用》

　　官网给出的两张图可以让你非常直观的了解Fluentd的作用。

　　在使用 Fluentd 之前，日志系统的状态：

　　使用 Fluentd 后，日志系统的状态：

　　机制图：

　　“Fluentd 的特点

　　1）易于安装2）占用空间小3）半结构化数据记录4）灵活的插件机制5）可靠缓冲6）日志转发“Fluentd部署和架构 Fluentd 部署与 Flume 非常相似：

　　Fluentd 的架构设计与 Flume 相同：

　　Fluentd 的 Input/Buffer/Output 与 Flume 的 Source/Channel/Sink 非常相似。

　　输入

　　Input负责接收数据或主动抓取数据。支持syslog、http、file tail等

　　缓冲

　　缓冲区负责数据采集的性能和可靠性，可以配置文件或内存等不同类型的缓冲区。

　　输出

　　Output 负责将数据输出到目的地，例如文件、AWS S3 或其他 Fluentd。

　　“Fluentd 的技术栈

　　“Fluentd 的结构

　　由于结构简单，Fluentd 的核心仅收录 3000 行 Ruby。Fluentd 从各种输入源采集事件并将它们写入输出*敏*感*词*。例如：输入源：HTTP、Syslog、Apache Log 输出源：文件、邮件、RDBMS 数据库、NoSQL 存储

　　下图展示了输入输出的基本思路：

　　FLuentd 的可扩展性很强，客户可以自定义（Ruby）输入/缓冲/输出。Fluentd 在各方面都与 Flume 相似。不同的是，它是使用Ruby开发的，Footprint会更小，但也带来了跨平台的问题，无法支持Windows平台。此外，使用 JSON 统一的数据/日志格式是它的另一个特点。相比 Flumed，配置相对简单。

0

2022-03-14

文章采集平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集平台(大数据采集平台——Fluentd特殊的平台)

0 个评论

发起人

AI时代内容工厂

文章采集平台(大数据采集平台——Fluentd特殊的平台)

0 个评论

发起人

相关问题