【问题标题】:How to configure Azure Storage Gen 2 for Azure Databricks如何为 Azure Databricks 配置 Azure Storage Gen 2
【发布时间】:2021-03-01 20:41:24
【问题描述】:

我正在尝试使用 Databricks 安装数据湖。我的目标是建立数据湖。我想知道为什么我的 url 格式与文档不同。文件系统和 dfs 是什么意思?

我尝试使用 Azure Storage Gen2 创建数据湖。启用层次结构并开始创建目录。 我注意到文件 url 包含单词“blob”。

这是我目前的网址: https://datalakestagingtest.blob.core.windows.net/staging/manufacturers/nissan/micra.csv

我在 DataLake 文档中看到格式不同,其中 url 可能 是 abfss://@.dfs.core.windows.net/

参考: https://docs.databricks.com/data/data-sources/azure/azure-datalake-gen2.html

【问题讨论】:

  • 在 Azure databricks 中,它使用 Hadoop 文件系统。而在Hadoop中,我们需要使用abfs方案来访问Azure Storage Gen 2。更多详情请参考docs.microsoft.com/en-us/azure/storage/blobs/…
  • 我需要在 Azure 存储端做什么? @JimXu
  • 正常情况下,我们不需要在 Azure Storage 端做任何事情。

标签: azure-storage azure-databricks


【解决方案1】:

在 Azure Databricks 中装载存储帐户时需要注意的几个要点。

对于 Azure Blob 存储:source = "wasbs://<container-name>@<storage-account-name>.blob.core.windows.net/<directory-name>"

对于 Azure Data Lake Storage gen2:source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/"

要将 Azure Data Lake Storage Gen2 文件系统或其中的文件夹挂载为 Azure Databricks 文件系统,URL 应类似于 abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/

参考:Azure Databricks - Azure Data Lake Storage Gen2

【讨论】:

  • 如果我的回答对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。
猜你喜欢
  • 2021-03-04
  • 2019-09-23
  • 2020-11-22
  • 1970-01-01
  • 1970-01-01
  • 2020-01-24
  • 2020-06-03
  • 2020-02-29
  • 2022-08-07
相关资源
最近更新 更多