【发布时间】:2017-07-15 04:33:38
【问题描述】:
我在 pyspark 中有一个数据框,它有大约 150 列。这些列是通过连接不同的表获得的。现在我的要求是将数据帧写入文件,但按特定顺序写入,例如先写入 1 到 50 列,然后写入 90 到 110 列,然后再写入第 70 和 72 列。也就是说,我只想选择特定的列并重新排列它们。
我知道其中一种方法是使用 df.select("give your column order") 但在我的情况下,列非常大,不可能在 'select' 中写下每一个列名.
请告诉我如何在 pyspark 中实现这一点。
注意-我无法提供任何示例数据,因为列数非常大,而列号是我的主要障碍。
【问题讨论】:
-
不知道为什么
df.select(list_of_columns)是个问题 -
Df.select 不是问题,但我想避免在选择中写入超过 100 列。我正在寻找一种可以指定列范围的方法,例如 1-50,55,它会选择 50 列,然后是第 55 列。