【发布时间】:2020-12-17 19:30:33
【问题描述】:
我在 PySpark 中使用 repartitionByRange,同时保存了 2,000 多个 CSV。
df.repartitionByRange(<no of unique values of col>, col).write\
.option("sep", "|")\
.option("header", "true")\
.option("quote", '"')\
.option("escape", '"')\
.option("nullValue", "null")\
.option("quoteAll", "true")\
.mode('overwrite')\
.csv(path)
然后使用它们包含的列的唯一 ID 重命名每个分区。但是,大约 1-2% 的生成的 CSV 具有多个唯一 ID。请协助解决这个错误重新分区的问题。
【问题讨论】:
标签: pyspark partitioning azure-databricks