【发布时间】:2018-09-03 01:44:09
【问题描述】:
数据框示例:
col_1, col_2
aaa, 1
aaa, 0
bbb, 1
bbb, 1
bbb, 1
我想要一个包含 3 列的结果 df:col_1、总行数以及 col_2 === 1 的行数。
我试过了
df.groupBy($"col_1")
.agg(count($"col_2" === 1).as("delayed"), count(lit(1)) as "total").show(100)
为什么总计算正确,但延迟计算不正确?
【问题讨论】:
-
我知道另一种实现这一目标的方法,但我的问题是为什么我使用这种方法会得到错误的结果
标签: scala apache-spark dataframe aggregation