【问题标题】:Pyspark: Need to show a count of null/empty values per each column in a dataframePyspark:需要显示数据框中每列的空值/空值计数
【发布时间】:2021-01-16 16:42:42
【问题描述】:

我有一个 spark 数据框,需要对每列的空值/空值进行计数。我需要在输出中显示所有列。我在网上查看并发现了一些“类似问题”,但这些解决方案让我大吃一惊,这就是我在此发帖寻求个人帮助的原因。

这是我的代码,我知道这部分难题。

from pyspark.sql import *

sf.isnull()

运行后,这是我收到的错误 AttributeError: 'DataFrame' object has no attribute 'isnull'

有趣的是,我对 pandas 做了同样的练习,并使用了 df.isna().sum(),效果很好。 pyspark 我缺少什么?

【问题讨论】:

标签: python apache-spark pyspark


【解决方案1】:

您可以执行以下操作,只需确保您的 df 是 Spark DataFrame。

from pyspark.sql.functions import col, when

df.select(*(count(when(col(c).isNull(), c)).alias(c) for c in df.columns)).show()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-17
    • 2021-10-10
    • 1970-01-01
    • 2017-10-08
    • 2020-11-29
    • 1970-01-01
    • 2017-11-26
    相关资源
    最近更新 更多