【发布时间】:2017-03-17 09:25:29
【问题描述】:
我有以下数据框data:
root
|-- userId: string
|-- product: string
|-- rating: double
以及以下查询:
val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by userId")
我的问题是,聚合数组中的product 和rating 是否相互匹配?即同一行的product 和rating 在聚合数组中是否具有相同的索引。
更新:
从 Spark 2.0.0 开始,可以在结构类型上执行 collect_list,因此我们可以在组合列上执行 collect_list。但是对于 pre 2.0.0 版本,只能在原始类型上使用collect_list。
【问题讨论】:
标签: scala apache-spark hive apache-spark-sql