【问题标题】:Java Spark map step returning multiple RDDs返回多个 RDD 的 Java Spark 映射步骤
【发布时间】:2016-06-12 13:03:57
【问题描述】:

我有一个地图步骤,可以计算我需要的 RDD。在计算该 RDD 的数据时,可以计算出我感兴趣的另一个指标。有什么方法可以一步完成,还是我必须制作一个与第一个几乎相同的单独地图?

谢谢!

【问题讨论】:

  • "...可以计算另一个指标..." - 如果您可以更具体(代码示例),您可能会得到更好的答案。例如,如果这个指标是聚合的(例如,匹配 X 的所有记录的计数),您可以使用 Spark 的 Accumulators 将其作为您正在执行的映射的“副作用”。

标签: java dictionary apache-spark rdd


【解决方案1】:

是的,你可以,但是保持每个“映射步骤”简单会导致代码更易读。

请记住,您的 map() 在调用终止函数之前不会执行,因此从性能的角度来看,您是在一个 map() 还是两个连续的 map().map() 调用中执行此操作都没有关系

...假设您不必考虑数据洗牌的影响

【讨论】:

  • 好吧,听起来我可以制作两个地图步骤,但是为了澄清,你能指出如何从一张地图返回多个 RDD 吗? @布拉德
  • RDD.map().map() 仍将只返回一个 RDD(它是导致单个输出的命令管道)。我从您的问题中解释的是,返回的 RDD 将包含包含您计算的两个指标值的元素。所以第二次调用 map 建立在第一次调用 map 的输出之上。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2016-11-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-09-29
  • 1970-01-01
相关资源
最近更新 更多