【问题标题】:Kafka streams vs Kafka connect for Kafka HBase ETL pipelineKafka 流与 Kafka 连接用于 Kafka HBase ETL 管道
【发布时间】:2019-01-08 00:23:59
【问题描述】:

对于 ETL 作业,我有一个简单的场景:从 Kafka 主题中获取数据并将其放入 HBase 表中。将来,我将在从主题中读取数据后添加对某些逻辑的支持。 我考虑两种情况:

  • 使用 Kafka Streams 从主题中读取数据,并通过原生 HBased 驱动程序进一步写入每条记录
  • 使用 Kafka -> HBase connector

我对我的选择有以下顾虑:

  • 每次数据到达 Kafka Stream 的窗口时写入数据是个好主意吗? - 建议它会降低性能
  • Kafka Hbase 连接器仅由第三方开发人员支持,我不确定此解决方案的代码质量以及是否可以在主题数据上添加自定义聚合逻辑。

【问题讨论】:

标签: apache-kafka hbase apache-kafka-streams apache-kafka-connect


【解决方案1】:

我自己一直在尝试搜索 KAFKA 到 HBase 的 ETL 选项,但是,到目前为止,我的研究告诉我,在 KAFKA 流应用程序中进行外部系统交互并不是一个好主意(查看答案 @987654321 @ 和 here)。如果您有KAFKA->Transform_message->KAFKA 类型的用例,KAFKA 流非常强大且非常棒,最终您可以让 KAFKA 连接,它将从 KAFKA 主题中获取您的数据并将其写入接收器。

由于您不想为 HBase 使用第三方 KAFKA 连接,一种选择是使用连接 API 自己编写一些东西,另一种选择是使用 KAFKA 消费者生产者 API 并使用传统方式编写应用程序,轮询消息,写入接收器,提交批处理并继续。

【讨论】:

    猜你喜欢
    • 2021-10-07
    • 2021-02-18
    • 1970-01-01
    • 2019-03-10
    • 2021-08-20
    • 2017-02-02
    • 2019-01-17
    • 2017-06-27
    • 1970-01-01
    相关资源
    最近更新 更多