【问题标题】:Write a csv file into azure blob storage将 csv 文件写入 azure blob 存储
【发布时间】:2019-08-29 20:04:03
【问题描述】:

我正在尝试使用 pyspark 来分析我在 databricks 笔记本上的数据。 Blob 存储已安装在 databricks 集群上,经过分析,希望将 csv 写回 Blob 存储。由于 pyspark 以分布式方式工作,csv 文件被分成小块并写入 blob 存储。当我们使用 pyspark 进行分析时,如何克服这一点并将其作为单个 csv 文件写入 blob。谢谢。

【问题讨论】:

    标签: azure pyspark blob


    【解决方案1】:

    你真的想要一个文件吗?如果是,您可以通过将所有小的 csv 文件合并到一个 csv 文件中来克服它。您可以使用 databricks 集群上的 map 功能来合并它,或者您可以使用一些后台作业来做同样的事情。

    看看这里:https://forums.databricks.com/questions/14851/how-to-concat-lots-of-1mb-cvs-files-in-pyspark.html

    【讨论】:

      猜你喜欢
      • 2019-11-27
      • 2020-04-18
      • 2023-01-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-11-15
      • 1970-01-01
      • 2021-04-30
      相关资源
      最近更新 更多