【发布时间】:2017-07-29 04:41:57
【问题描述】:
我正在研究 Kafka Streams,我对 Java 8 中 WordCount 的第一个示例有疑问,取自文档。
使用最新可用版本的 kafka 流、Kafka Connect 和 WordCount lambda 表达式示例。
我遵循以下步骤: 我在 Kafka 中创建了一个输入主题和一个输出主题。启动应用流式传输,然后通过插入 .txt 文件中的一些单词来上传输入主题
在第一次计数时,在输出主题中,我看到单词分组正确,但计数错误。如果我尝试重新插入相同的单词,则之前错误计数的连续计数都是正确的。
如果我使用消费者控制台查看输入主题转储,则它已正确加载并且没有脏数据。
怎么第一次算错了?
示例 [第一个数据]: (在Kafka中输入Topic) 嗨嗨 迈克 测试
(应用流式传输正在运行)
(输出主题) hi 12 mike 4 test 3 (casual counts)
[SUCCESSIVE DATA - 在输入主题中发布相同的词]
(输出主题)嗨 14 迈克 6 测试 4
[新尝试]
(输出主题)hi 16 mike 8 test 5
等等……
【问题讨论】:
-
这听起来很奇怪。你能可靠地重现这个问题吗?这不应该发生。
标签: apache-kafka apache-kafka-streams apache-kafka-connect bigdata