【发布时间】:2015-08-03 06:27:43
【问题描述】:
这个问题是关于聚合操作时DataFrame 和RDD 之间的对偶性。在 Spark SQL 中,可以使用表生成 UDF 进行自定义聚合,但创建其中之一的用户友好性通常明显低于使用 RDD 可用的聚合函数,尤其是在不需要表输出的情况下。
是否有一种有效的方法可以将 aggregateByKey 等配对 RDD 操作应用于已使用 GROUP BY 分组或使用 ORDERED BY 排序的 DataFrame?
通常,需要一个显式的map 步骤来创建键值元组,例如dataFrame.rdd.map(row => (row.getString(row.fieldIndex("category")), row).aggregateByKey(...)。这可以避免吗?
【问题讨论】:
标签: scala apache-spark apache-spark-sql rdd