【发布时间】:2016-05-31 08:13:10
【问题描述】:
我想计算分组 Spark 数据帧的列中有多少条记录为真,但我不知道如何在 python 中执行此操作。例如,我有一个带有region、salary 和IsUnemployed 列的数据,其中IsUnemployed 作为布尔值。我想看看每个地区有多少失业者。我知道我们可以做一个filter 然后groupby 但我想同时生成两个聚合,如下所示
from pyspark.sql import functions as F
data.groupby("Region").agg(F.avg("Salary"), F.count("IsUnemployed"))
【问题讨论】:
标签: python sql apache-spark pyspark apache-spark-sql