【发布时间】:2021-02-06 06:40:46
【问题描述】:
我有一个包含很多列的 DataFrame。现在我想调整列的顺序。
一定数量的列必须排在前面(按一定的顺序),其余的列按列名排序(不是手动的,因为有很多)
如何使用 PySpark 实现这一点?
我想先对它们进行排序,然后按特定顺序调整一些
df.orderBy(cols, ascending=True)
假设当前列顺序:
col_a, col_k, col_c, col_h, col_e, col_f, col_g, col_d, col_j, col_i, col_b
所需的新订单:
col_c, col_j, col_a, col_g :: col_b, col_d, col_e, col_f, col_h, col_i, col_k
:: 之前是按特定顺序排列的列,之后是按列名排序的其余列
【问题讨论】:
标签: dataframe pyspark pyspark-dataframes