【问题标题】:How do I get the correct path to a folder of an Azure container?如何获取 Azure 容器文件夹的正确路径?
【发布时间】:2016-03-09 18:56:51
【问题描述】:

我正在尝试从 Azure 存储帐户读取文件。特别是,我想读取某个文件夹中包含的所有文件,例如:

lines = sc.textFile('/path_to_azure_folder/*')

我不太确定路径应该是什么。我尝试使用来自 Azure 的 URL 服务 blob 端点,然后是文件夹路径(我尝试使用 http 和 https):

lines = sc.textFile('https://container_name.blob.core.windows.net/path_to_folder/*')

但没用:

诊断:应用程序 XXXXXX 因 AM Container 失败 5 次 XXXXXXXX 以 exitCode 退出:1 诊断:异常来自 容器启动。容器 id:XXXXXXXXX 退出代码:1

当我点击“信息”时,我提供的 URL 与使用 Cyber​​Duck 应用程序获得的 URL 相同。

【问题讨论】:

    标签: azure apache-spark azure-blob-storage


    【解决方案1】:

    你的路径应该是这样的

    lines = sc.textFile("wasb://containerName@$storageAccountName.blob.core.windows.net/folder_path/*")
    

    这应该可以解决您的问题。

    【讨论】:

    • 如何从 Azure Web 界面中找到存储帐户名称?我不确定容器和存储之间有什么区别
    • 您应该能够在“manage.windowsazure.com”中找到它。导航到 Hdinsight 并选择您正在处理的集群。现在,如果您在仪表板中向下滚动。您将看到那里列出的所有存储帐户。选择合适的。
    • 很抱歉再次打扰您。帐户名称与订阅名称相同吗?如果是这样,我如何处理名称中的空格?谢谢,
    • 订阅名称和存储帐户名称不同。您可以访问“manage.windowsazure.com”吗?
    【解决方案2】:

    如果您尝试读取 Azure 存储帐户中的所有 blob,您可能需要查看我们提供的用于检索和操作数据的工具和库。入门文档here

    希望这有帮助!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-06-28
      • 1970-01-01
      • 2021-09-27
      • 1970-01-01
      • 2016-12-25
      • 1970-01-01
      • 1970-01-01
      • 2017-09-23
      相关资源
      最近更新 更多