【发布时间】:2016-03-09 18:56:51
【问题描述】:
我正在尝试从 Azure 存储帐户读取文件。特别是,我想读取某个文件夹中包含的所有文件,例如:
lines = sc.textFile('/path_to_azure_folder/*')
我不太确定路径应该是什么。我尝试使用来自 Azure 的 URL 服务 blob 端点,然后是文件夹路径(我尝试使用 http 和 https):
lines = sc.textFile('https://container_name.blob.core.windows.net/path_to_folder/*')
但没用:
诊断:应用程序 XXXXXX 因 AM Container 失败 5 次 XXXXXXXX 以 exitCode 退出:1 诊断:异常来自 容器启动。容器 id:XXXXXXXXX 退出代码:1
当我点击“信息”时,我提供的 URL 与使用 CyberDuck 应用程序获得的 URL 相同。
【问题讨论】:
标签: azure apache-spark azure-blob-storage