【发布时间】:2018-09-14 02:31:36
【问题描述】:
我需要将数据框写入单个csv文件,发现可以使用sdf_coalesce()将文件变成单个分区。我想知道是否有什么方法可以更改spark_write_csv()生成的csv文件的名称?
提前致谢。
【问题讨论】:
-
你能不能像
readr::write_csv那样在path参数中这样做? -
由于spark处理分布式计算,它倾向于生成与数据的每个分区对应的分区文件,合并意味着将所有数据分组到一个分区,这样你就可以耗尽内存。