【发布时间】:2016-11-24 08:59:44
【问题描述】:
为了进行比较,假设我们有一个表“T”,其中包含两列“A”、“B”。我们还有一个在一些 HDFS 数据库中运行的 hiveContext。我们制作一个数据框:
理论上,以下哪个更快:
sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")
或
df.groupBy("A").sum("B")
其中“df”是指 T 的数据帧。对于这些简单类型的聚合操作,有什么理由让人们更喜欢一种方法而不是另一种方法?
【问题讨论】:
标签: apache-spark hive pyspark