【发布时间】:2018-05-29 09:26:26
【问题描述】:
我正在使用 Spark SQL,并且 UDF 用于计算 ArrayType 类型的列
就性能而言,最快的输出类型是什么?
Spark 接受 trait Seq 的任何实现,但我认为它在内部由 WrappedArray 表示(进入钨)。
所以我想知道是否最好返回 Array 而不是 Vector 例如,以避免一些编码。
【问题讨论】:
-
spark sql 应该更好,因为它针对 JVM 进行了优化,而 udf 需要昂贵的序列化和反序列化
标签: apache-spark apache-spark-sql