【发布时间】:2021-09-28 03:08:54
【问题描述】:
我是 spark 新手,我有一些简单的问题。 我想使用前缀跨度的方法,但它只支持数据集和数据框。 所以我确实将列表转换为rdd,然后将其转换为数据框。 但是为什么要先将 list 转换为 rdd 呢? 为什么list不能直接转dataframe?
data = [Row([[1, 2], [3]]), Row([[1], [3, 2], [2]]), Row([[1, 2], [5]]), Row([[6]])]
columns = ["seq"]
rdd = spark.sparkContext.parallelize(data)
df = spark.createDataFrame(data=data).toDF(*columns)
谢谢。
【问题讨论】:
-
这能回答你的问题吗? Manually create a pyspark dataframe
-
作为建议,当您想在问题/答案中添加一些代码时,将其添加为文本,以便更容易复制粘贴。
-
感谢您的评论,我编辑问题
标签: list dataframe pyspark rdd