【发布时间】:2020-12-10 08:41:49
【问题描述】:
我正在尝试将数据写入 csv 文件并将文件存储在 Azure Data Lake Gen2 中,并遇到作业中止错误消息。同样的代码以前可以正常工作。
错误信息:
org.apache.spark.SparkException: Job aborted.
代码:
import requests
response = requests.get('https://myapiurl.com/v1/data', auth=('user', 'password'))
data = response.json()
from pyspark.sql import *
df=spark.createDataFrame([Row(**i) for i in data])
df.write.format(source).mode("overwrite").save(path) #error line
【问题讨论】:
-
您能分享一下您尝试执行的代码吗?
-
嗨@HimanshuSinha-msft,感谢您的回复。请查找已更新代码的 OP。
-
您能告诉我您如何在数据块中访问 Azure Data Lake Gen2 吗?
-
您是否将
spark.conf.set( "fs.azure.account.key.<storage-account-name>.blob.core.windows.net", "<storage-account-access-key>")添加到您的代码中 -
@paone 此外,如果您使用 ADLS Gen2,您需要使用
abfss协议来访问文件并将spark.conf.set( "fs.azure.account.key.<storage-account-name>.dfs.core.windows.net", "<storage-account-access-key-name>")添加到您的代码中以进行身份验证。更多详情请参考docs.microsoft.com/en-us/azure/databricks/data/data-sources/…。
标签: pyspark azure-databricks pyspark-dataframes azure-data-lake-gen2