【发布时间】:2015-07-28 21:09:00
【问题描述】:
我是第一次使用 pyspark。
我希望我的 reducer 任务迭代从映射器返回的值,就像在 java 中一样。
我看到只有累加器的选项而不是迭代 - 就像在添加函数 add(data1,data2) => data1 是累加器。
我想在我的输入中获得一个包含属于该键的值的列表。
这就是我想做的。有人知道是否有这样做的选择吗?
【问题讨论】:
标签: python mapreduce apache-spark pyspark reducers