将 csv 文件写入 azure blob 存储

【问题标题】：Write a csv file into azure blob storage将 csv 文件写入 azure blob 存储
【发布时间】：2019-08-29 20:04:03
【问题描述】：

我正在尝试使用 pyspark 来分析我在 databricks 笔记本上的数据。 Blob 存储已安装在 databricks 集群上，经过分析，希望将 csv 写回 Blob 存储。由于 pyspark 以分布式方式工作，csv 文件被分成小块并写入 blob 存储。当我们使用 pyspark 进行分析时，如何克服这一点并将其作为单个 csv 文件写入 blob。谢谢。

【问题讨论】：

标签： azure pyspark blob

【解决方案1】：

你真的想要一个文件吗？如果是，您可以通过将所有小的 csv 文件合并到一个 csv 文件中来克服它。您可以使用 databricks 集群上的 map 功能来合并它，或者您可以使用一些后台作业来做同样的事情。

看看这里：https://forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html

【讨论】：