【发布时间】:2016-11-02 07:35:13
【问题描述】:
Apache Spark RDD sortByKey 的 Big-O 时间复杂度是多少?
我正在尝试根据特定顺序将行号分配给 RDD。
假设我有一个 {K,V} 对 RDD,我希望使用键执行订单
myRDD.sortByKey(true).zipWithIndex
这个操作的时间复杂度是多少,大 O 形式?
幕后发生了什么?冒泡排序?我希望不是!我的数据集非常大并且跨分区运行,所以我很好奇 sortByKey 函数是否是最佳的,或者在分区内执行某种中间数据结构,然后跨分区执行其他操作以优化消息传递,或者是什么。
【问题讨论】:
-
这里还有其他有用的 cmets:apache-spark-user-list.1001560.n3.nabble.com/…
标签: apache-spark time-complexity big-o rdd