Kafka Connect 从目录中读取文件

【问题标题】：Kafka Connect to Read files from a directoryKafka Connect 从目录中读取文件
【发布时间】：2020-07-03 23:55:36
【问题描述】：

我正在将流媒体应用从 Flume 转移到 kafka。所以需要帮助，因为我是 kafka 的新手。

我有一台 Windows 机器，在该机器上，IOT 传感器在特定位置（例如 D:/Folder）不断生成 CSV 文件。我想把它转移到一个hadoop集群。

文件夹中每天都会生成数百万个小文件。我想用 kafka 假脱机文件夹以获取任何新文件。我应该使用哪个 Kafka 连接来后台处理新文件的目录。我读过关于 kafka connect fileStream 但我认为它只适用于 1 个文件。

【问题讨论】：

github.com/jcustenborder/kafka-connect-spooldir
为什么不能使用 Flume spooldir？
在我的案例中，有很多消费者从同一来源阅读，因此我们继续使用 kafka 提供的发布订阅模型
消费者不在乎你有一个 spooldir，他们只想要 Kafka 中的数据。 Flume 可以将数据从目录发送到 Kafka ......这就是我的观点
替代方案是 FluentD 或 Beats

标签： hadoop apache-kafka

【解决方案1】：

使用 Kafka-connect-spooldir。支持读取文件夹内的所有csv文件

https://www.confluent.io/hub/jcustenborder/kafka-connect-spooldir https://docs.confluent.io/current/connect/kafka-connect-spooldir/

【讨论】：

请不要只发布一些工具或库作为答案。至少在答案本身中展示how it solves the problem。

猜你喜欢

2017-02-20
2019-02-21
2015-04-22
2010-10-11
2016-01-06
1970-01-01
1970-01-01

相关资源

下载 2023-01-01
下载 2022-12-13
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode