【问题标题】:Kafka Connect to Read files from a directoryKafka Connect 从目录中读取文件
【发布时间】:2020-07-03 23:55:36
【问题描述】:

我正在将流媒体应用从 Flume 转移到 kafka。所以需要帮助,因为我是 kafka 的新手。

我有一台 Windows 机器,在该机器上,IOT 传感器在特定位置(例如 D:/Folder)不断生成 CSV 文件。我想把它转移到一个hadoop集群。

文件夹中每天都会生成数百万个小文件。我想用 kafka 假脱机文件夹以获取任何新文件。 我应该使用哪个 Kafka 连接来后台处理新文件的目录。 我读过关于 kafka connect fileStream 但我认为它只适用于 1 个文件。

【问题讨论】:

  • 为什么不能使用 Flume spooldir?
  • 在我的案例中,有很多消费者从同一来源阅读,因此我们继续使用 kafka 提供的发布订阅模型
  • 消费者不在乎你有一个 spooldir,他们只想要 Kafka 中的数据。 Flume 可以将数据从目录发送到 Kafka ......这就是我的观点
  • 替代方案是 FluentD 或 Beats

标签: hadoop apache-kafka


【解决方案1】:

【讨论】:

猜你喜欢
  • 2017-02-20
  • 2019-02-21
  • 2015-04-22
  • 2010-10-11
  • 2016-01-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多