【发布时间】:2016-01-31 12:08:00
【问题描述】:
我们有一个在 Memsql 下运行的 Spark 集群,我们有不同的 Pipelines 运行,ETL 设置如下。
- 摘录:- Spark 从 Kafka 集群读取消息(使用 Memsql Kafka-Zookeeper)
- 转换:- 我们为此步骤部署了一个自定义 jar
- 加载:- 来自 Transform 阶段的数据加载到列存储中
我有以下疑问:
如果作业在转换阶段失败,从 Kafka 轮询的消息会发生什么 - Memsql 是否负责再次加载该消息 - 或者,数据丢失了
如果数据丢失,我该如何解决这个问题,是否需要为此进行任何配置更改?
【问题讨论】:
标签: apache-spark apache-kafka singlestore