【发布时间】:2021-01-16 16:42:42
【问题描述】:
我有一个 spark 数据框,需要对每列的空值/空值进行计数。我需要在输出中显示所有列。我在网上查看并发现了一些“类似问题”,但这些解决方案让我大吃一惊,这就是我在此发帖寻求个人帮助的原因。
这是我的代码,我知道这部分难题。
from pyspark.sql import *
sf.isnull()
运行后,这是我收到的错误 AttributeError: 'DataFrame' object has no attribute 'isnull'
有趣的是,我对 pandas 做了同样的练习,并使用了 df.isna().sum(),效果很好。 pyspark 我缺少什么?
【问题讨论】:
-
你确定一个数据框(在pyspark.syl中,不是pandas中)有这样的方法:From the documentation
-
这是我困惑的地方,我不知道。我点击了你的链接,看到了
pyspark.sql.Column.isNull然后我走得更远,作为一个例子,它的节目filter正在被使用。我什至不知道那是什么。 -
但是
Column不是DataFrame: "Column: A column expression in a DataFrame"? -
已经有答案here
标签: python apache-spark pyspark