【问题标题】:CSV Connector For Kafka用于 Kafka 的 CSV 连接器
【发布时间】:2018-11-23 11:26:03
【问题描述】:

我的任务是创建一个基本的 ETL 应用程序。我们有一个远程位置,每个月都会将 csv 文件拖放到该位置,它们大约是。大小为 250MB。

应用程序将导入 csv --> 应用业务逻辑(如果需要)-> 插入到 SQLServer 表中。

我一直在考虑为此使用 Kafka。不过,我对它还很陌生,无法找到一个可以将 csv 文件导入 Kafka 的连接器。我在 github 上看到过一些项目,但它们似乎已经过时了,而且我在 UnsupportedOperationExceptions 上遇到了各种错误

谁能指出正确的方向?我现在正在考虑使用 confluent_kafka 编写一个连接器

【问题讨论】:

  • Github 上的 spooldir 连接器是普遍推荐的(由 Confluent 员工编写)

标签: apache-kafka kafka-producer-api apache-kafka-connect


【解决方案1】:

如果您想使用 Kafka(根据您的要求并不清楚您是否需要),那么 kafka-connect-spooldir 是满足您要求的良好连接器。 This article 显示设置和使用示例。

免责声明:我为 Confluent 工作,我撰写了这篇文章 :)

【讨论】:

  • 嗨罗宾,非常感谢。这篇文章正是我一直在寻找的。在需求方面,最近 Kafka 已经成为炒作,我们的组织实际上有融合的企业。也就是说,我的第一个方法是春季批次,但我决定尝试 kafka 可能会很有趣
  • 如果您在组织的其他地方使用 Apache Kafka,那么在这里使用它也很有意义,关键是您正在构建的系统可以访问其他人的数据,反之亦然。
  • 嗨罗宾,(希望)最后一个问题,我拥有的 csv 文件没有标题。有什么办法可以解决这个问题吗?我尝试使用动态模式生成,但它不起作用
  • 一种选择是手动添加一次标题,生成该文章中所示的架构,然后您可以自动处理后续文件,假设它们遵循相同的架构。
  • ?? 很高兴它成功了。如果是,请不要忘记将问题标记为已回答:)
猜你喜欢
  • 2020-10-19
  • 2017-02-02
  • 1970-01-01
  • 2019-02-02
  • 2016-12-17
  • 2019-09-01
  • 1970-01-01
  • 2020-07-03
  • 1970-01-01
相关资源
最近更新 更多