【发布时间】:2019-08-29 20:04:03
【问题描述】:
我正在尝试使用 pyspark 来分析我在 databricks 笔记本上的数据。 Blob 存储已安装在 databricks 集群上,经过分析,希望将 csv 写回 Blob 存储。由于 pyspark 以分布式方式工作,csv 文件被分成小块并写入 blob 存储。当我们使用 pyspark 进行分析时,如何克服这一点并将其作为单个 csv 文件写入 blob。谢谢。
【问题讨论】:
我正在尝试使用 pyspark 来分析我在 databricks 笔记本上的数据。 Blob 存储已安装在 databricks 集群上,经过分析,希望将 csv 写回 Blob 存储。由于 pyspark 以分布式方式工作,csv 文件被分成小块并写入 blob 存储。当我们使用 pyspark 进行分析时,如何克服这一点并将其作为单个 csv 文件写入 blob。谢谢。
【问题讨论】:
你真的想要一个文件吗?如果是,您可以通过将所有小的 csv 文件合并到一个 csv 文件中来克服它。您可以使用 databricks 集群上的 map 功能来合并它,或者您可以使用一些后台作业来做同样的事情。
看看这里:https://forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html
【讨论】: