【发布时间】:2016-09-02 16:34:06
【问题描述】:
假设我有两个大小为 M1 和 M2 的 RDD,平均分配到 p 个分区中。
我有兴趣知道(理论上/大约)操作过滤器、映射、leftOuterJoin、++、reduceByKey 等的成本是多少。
感谢您的帮助。
【问题讨论】:
-
好吧,spark 的评估是惰性的,所以它真的取决于你的完整 RDD 操作链,因为有些东西可能会被优化
-
在
Dataset,你可以使用explain给你一个查询计划。
标签: performance apache-spark rdd processing-efficiency memory-efficient