【问题标题】:reading a csv file from azure blob storage with PySpark使用 PySpark 从 azure blob 存储中读取 csv 文件
【发布时间】:2019-04-28 06:29:30
【问题描述】:

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群进行机器学习项目。要在我的集群上操作,请使用 Jupyter 笔记本。另外,我的数据(一个 csv 文件)存储在 Azure Blob 存储中。

根据文档,我的文件路径的语法是:

path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

但是,当我尝试使用以下命令读取 csv 文件时:

csvFile = spark.read.csv(path, header=True, inferSchema=True)

我收到以下错误:

'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

这是笔记本中错误的屏幕截图:

关于如何解决这个问题的任何想法?

【问题讨论】:

  • 它是 wasb:// 或 wasbs://。 wasbs 是 wasb 的安全版本

标签: azure apache-spark pyspark azure-storage azure-hdinsight


【解决方案1】:

它是(未加密的):

wasb://...

或(加密):

wasbs://...

不是

wasb[s]://...

【讨论】:

  • 非常感谢!这解决了问题!
猜你喜欢
  • 2018-11-04
  • 2022-01-19
  • 2019-04-15
  • 2012-06-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-04-25
  • 2019-09-17
相关资源
最近更新 更多