【发布时间】:2020-07-03 23:55:36
【问题描述】:
我正在将流媒体应用从 Flume 转移到 kafka。所以需要帮助,因为我是 kafka 的新手。
我有一台 Windows 机器,在该机器上,IOT 传感器在特定位置(例如 D:/Folder)不断生成 CSV 文件。我想把它转移到一个hadoop集群。
文件夹中每天都会生成数百万个小文件。我想用 kafka 假脱机文件夹以获取任何新文件。 我应该使用哪个 Kafka 连接来后台处理新文件的目录。 我读过关于 kafka connect fileStream 但我认为它只适用于 1 个文件。
【问题讨论】:
-
为什么不能使用 Flume spooldir?
-
在我的案例中,有很多消费者从同一来源阅读,因此我们继续使用 kafka 提供的发布订阅模型
-
消费者不在乎你有一个 spooldir,他们只想要 Kafka 中的数据。 Flume 可以将数据从目录发送到 Kafka ......这就是我的观点
-
替代方案是 FluentD 或 Beats
标签: hadoop apache-kafka