【发布时间】:2019-12-07 07:59:25
【问题描述】:
因为我无法将 parquet 文件写入 Azure Blob 存储,所以我的头撞到了墙上。在我的 Azure Databricks Notebook 上,我基本上: 1. 从与数据帧相同的 blob 存储中读取 CSV 并 2. 尝试将数据帧写入同一个存储。
我能够读取 CSV,但是在我尝试写入 parquet 文件时出现此错误。
这是堆栈跟踪:
作业因阶段故障而中止:阶段 8.0 中的任务 0 失败 4 次,最近一次失败:阶段 8.0 中丢失任务 0.3(TID 20、10.139.64.5、执行程序 0):shaded.databricks.org.apache.hadoop .fs.azure.AzureException:java.io.IOException 在 shaded.databricks.org.apache.hadoop.fs.azure.AzureNativeFileSystemStore.storeEmptyFolder(AzureNativeFileSystemStore.java:1609) ... ... 原因:com.microsoft.azure.storage.StorageException:指定的资源不存在。
这是我的python代码:
spark.conf.set("fs.azure.sas.my_container.my_storage.blob.core.windows.net", dbutils.secrets.get(scope = "my_scope", key = "my_key"))
读取 csv
df100 = spark.read.format("csv").option("header", "true").load("wasbs://my_container@my_storage.blob.core.windows.net/folder/revenue.csv")
写实木复合地板
df100.write.parquet('wasbs://my_container@my_storage.blob.core.windows.net/f1/deh.parquet')
结束
【问题讨论】:
标签: python azure-blob-storage azure-databricks