【发布时间】:2016-06-12 13:03:57
【问题描述】:
我有一个地图步骤,可以计算我需要的 RDD。在计算该 RDD 的数据时,可以计算出我感兴趣的另一个指标。有什么方法可以一步完成,还是我必须制作一个与第一个几乎相同的单独地图?
谢谢!
【问题讨论】:
-
"...可以计算另一个指标..." - 如果您可以更具体(代码示例),您可能会得到更好的答案。例如,如果这个指标是聚合的(例如,匹配 X 的所有记录的计数),您可以使用 Spark 的 Accumulators 将其作为您正在执行的映射的“副作用”。
标签: java dictionary apache-spark rdd