【问题标题】:How to extract data from different columns of a PySpark dataframe in different python lists or dict?如何从不同 python 列表或字典中的 PySpark 数据帧的不同列中提取数据?
【发布时间】:2021-06-10 14:19:14
【问题描述】:

我想在不同的 python 列表(维护对应关系)或 python 字典中提取 pyspark 数据帧的所有不同列。

我该怎么做?

我唯一想做的就是-

colA_list = [i.colA for i in df.select("colA").collect()]
colB_list = [i.colB for i in df.select("colB").collect()]

这种方法能确保正确排序吗?如果不是最好的方法是什么?

【问题讨论】:

    标签: dataframe pyspark collect


    【解决方案1】:

    df.columns 为您提供按数据框顺序排列的列列表

    col = df.columns
    

    【讨论】:

    • 我想要列的元素而不是列的名称。我希望它以这样一种方式,即不同列表中的所有元素(对于不同的列)都保持它们的顺序
    猜你喜欢
    • 1970-01-01
    • 2021-03-21
    • 2021-07-25
    • 2023-04-01
    • 2019-08-12
    • 1970-01-01
    • 1970-01-01
    • 2016-04-28
    • 1970-01-01
    相关资源
    最近更新 更多