【发布时间】:2019-04-17 18:17:38
【问题描述】:
我一般对流媒体有疑问,但对于问题的范围,让我们限制自己使用 Kafka Streams。让我们进一步缩小范围,将我们的问题限制为仅字数统计,或者可能是一般统计。假设我有一个键和一个值的流,键可以是一个字符串(假设我们可以有许多字符串,除了空字符串,由世界上的任何字符组成)并且值是一个整数,现在我们正在构建一个字数统计应用程序,如果词汇表中的单词总数为一万亿,我们无法将它们存储在某个本地缓存中。如果看到带有值x 的单词w,我需要将w 的现有计数更新为X+x,假设X 是以前的计数,我将如何构建此应用程序。我无法在 KTable 或 Kafka 本地的任何其他本地存储中存储一万亿个单词,我将如何构建这个应用程序?我对 Streams 或其工作方式的理解是否错误。
【问题讨论】:
标签: apache-kafka apache-kafka-streams