【问题标题】:Need for Azure Blob Storage in Azure Databricks running Spark clusters在运行 Spark 群集的 Azure Databricks 中需要 Azure Blob 存储
【发布时间】:2019-03-05 10:29:55
【问题描述】:
我正在使用 Azure Databricks 生态系统中的 Spark 集群,并关联了 Azure Blob 存储。此外,还有与 Databricks 关联的 Databricks 文件系统 (DBFS)。我想知道是否需要使用 Azure Blob 存储来存储数据? DBFS 是否不足以存储文件/数据?
【问题讨论】:
标签:
python
apache-spark
cluster-computing
azure-blob-storage
azure-databricks
【解决方案1】:
据我所知,documentation Azure Databricks 通过 DBFS 使用 Azure Blob 存储。回答你的问题——不,没有必要,这就够了。无论如何,您的数据将被保留。
如果您打算将存储的数据用于笔记本以外的其他应用程序,例如 HDInsight 群集顶部的 spark 作业,我建议您设置一个额外的(明确命名的)blob 存储帐户。