【问题标题】:Filter pyspark dataframe but still on dataframe format过滤 pyspark 数据框,但仍使用数据框格式
【发布时间】:2021-10-06 05:22:05
【问题描述】:

如何过滤 pyspark 数据帧但仍然是数据帧格式?

我用过这个

datalabel = datalabel.filter(datalabel.subs_no.isNotNull()).collect()

datalabel 格式改为列表。

【问题讨论】:

  • 你的问题很模糊
  • datalabel.filter(datalabel.subs_no.isNotNull()) 会返回一个数据框。当您在其上调用 .collect() 时,您正在请求行列表。所以只需删除.collect()

标签: python pandas dataframe pyspark


【解决方案1】:

您可以使用select 过滤所需的列,这将返回DataFrame

datalabel_subs_no = datalabel.filter(datalabel.subs_no.isNotNull()).select(F.col('subs_no'))

【讨论】:

    猜你喜欢
    • 2019-03-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-09-12
    • 2021-12-03
    • 2021-11-23
    • 2017-06-28
    • 1970-01-01
    相关资源
    最近更新 更多