【问题标题】:Convert a Pipeline RDD into a Spark dataframe将 Pipeline RDD 转换为 Spark 数据帧
【发布时间】:2021-03-05 22:15:24
【问题描述】:

从此开始:

items.take(2)
[['home', 'alone', 'apparently'], ['st','louis','plant','close','die','old','age','workers','making','cars','since','onset','mass','automotive','production','1920s']]

type(items)
pyspark.rdd.PipelinedRDD

我想将其转换为 Spark 数据框,其中每个单词列表有一列和一行。

【问题讨论】:

    标签: python dataframe apache-spark pyspark rdd


    【解决方案1】:

    您可以使用toDF 创建数据框,但请记住先将每个列表包装在一个列表中,以便 Spark 可以理解您每行只有一列。

    df = items.map(lambda x: [x]).toDF(['words'])
    
    df.show(truncate=False)
    +------------------------------------------------------------------------------------------------------------------+
    |words                                                                                                             |
    +------------------------------------------------------------------------------------------------------------------+
    |[home, alone, apparently]                                                                                         |
    |[st, louis, plant, close, die, old, age, workers, making, cars, since, onset, mass, automotive, production, 1920s]|
    +------------------------------------------------------------------------------------------------------------------+
    
    df.printSchema()
    root
     |-- words: array (nullable = true)
     |    |-- element: string (containsNull = true)
    

    【讨论】:

      猜你喜欢
      • 2017-08-24
      • 1970-01-01
      • 2020-09-06
      • 2023-02-09
      • 2018-06-14
      • 2016-12-12
      • 2016-04-21
      • 2017-01-25
      相关资源
      最近更新 更多