【发布时间】:2020-02-24 07:13:53
【问题描述】:
我正在针对我正在研究的特定用例研究 Kafka。我有一个正在流动的数据流,我想对其进行处理并将其发布到中间阶段。
在每个阶段(初始和中间) Samza 任务将进行处理和重新发布。我的要求之一是能够在我想要的任何时候从特定阶段重新触发整个处理管道。
我知道 kafka 为其每个日志维护一个偏移量(传入数据)。但是,Kafka 是否提供任何功能,我可以通过它映射 将偏移量分区到某些自定义标识符 (比如时间戳) 并使用它来重新触发从那时起的整个管道?
我在多个地方读到过,我可以通过从头重置并返回 N 次来重放 kafka 提交日志。但是有没有办法让我将这些偏移量映射到我自己的标识符(如时间戳),并将其用作一种机制来判断从哪个偏移量重播。
最佳
沙比尔
【问题讨论】:
标签: apache-kafka stream-processing apache-samza