【发布时间】:2017-07-27 11:33:18
【问题描述】:
我有一个具有 VideoID-UserID 键值对的 dstream,按 VideoID 计算不同 UserID 组的良好做法是什么?
// VideoID,UserID
foo,1
foo,2
bar,1
bar,2
foo,1
bar,2
如上,我想随时去掉多余的foo,1和bar,2得到VideoID-CountUserID,所以结果应该是:
foo: 2
bar: 2
换句话说,我想在内存中保存一个大型状态数据集。当新一批 dstream 到达时,将其与数据集进行比较,以计算每个视频的不同用户。
怎么做?
我正在开发 Spark 1.6,但接受了后续版本的答案。可能的话 Python 代码。
【问题讨论】:
标签: python scala apache-spark spark-streaming spark-dataframe