【发布时间】:2021-12-08 12:59:48
【问题描述】:
我们有一个巨大的文件,我们根据一列重新分区,例如,说它是STATE。现在似乎重新分区后,数据无法完全排序。我们正在尝试将最终文件保存为文本文件,但是现在加利福尼亚州首先出现,而不是列出的第一个州是阿拉巴马州。 OrderBy 运行重新分区后似乎没有效果。
df = df.repartition(100, ['STATE_NAME'])\
.sortWithinPartitions('STATE_NAME', 'CUSTOMER_ID', 'ROW_ID')
【问题讨论】:
-
将 list 传递给
repartition不符合documentation。 -
哎呀。确定此代码的相同问题: df = df.repartition(100, 'STATE_NAME')\ .sortWithinPartitions('STATE_NAME', 'CUSTOMER_ID', 'ROW_ID')
-
您要保存多少个文件? 1 还是 100?