【问题标题】:Write data from pyspark to azure blob?将数据从 pyspark 写入 azure blob?
【发布时间】:2020-04-29 03:25:56
【问题描述】:

我想将数据帧从 pyspark 写入 azure blob?有什么建议或代码怎么做?

我有 blob 的位置和键

enter image description here

【问题讨论】:

  • 您好,我的回答对您有帮助吗?
  • 是的,它有帮助,但在将数据写入 csv 时会遇到问题。请找到问题部分的错误链接。

标签: python azure pyspark blob


【解决方案1】:

您可以按照此tutorial 将您的 spark 数据帧与 Azure Blob 存储连接起来。

设置连接信息:

session.conf.set(
    "fs.azure.account.key.<storage-account-name>.blob.core.windows.net",
    "<your-storage-account-access-key>"
)

然后将数据写入blob存储:

sdf = session.write.parquet(
    "wasbs://<container-name>@<storage-account-name>.blob.core.windows.net/<prefix>"
)

另外,你可以参考这个案例:pyspark write to wasb blob storage container

【讨论】:

  • 我尝试了您上面提到的方法并获得异常为“Caused by: java.lang.IllegalArgumentException: The String is not a valid Base64-encoded string.”
  • 我附上了我在问题下方收到的错误消息的屏幕截图。请看一下,你能告诉我确切的错误是什么吗?
猜你喜欢
  • 2020-11-15
  • 2017-10-04
  • 1970-01-01
  • 1970-01-01
  • 2023-01-03
  • 2020-10-06
  • 2018-06-24
  • 2023-02-23
  • 2021-06-13
相关资源
最近更新 更多