【发布时间】:2019-11-04 19:47:58
【问题描述】:
我正在尝试下载 Hadoop 文件(我的 hadoop 数据位于 Azure 数据湖中)。在脚本下面使用,但我收到 JVM 错误。有什么帮助吗?
sc = spark.sparkContext
URI = sc._gateway.jvm.java.net.URI
hadoop = sc._gateway.jvm.org.apache.hadoop
conf = hadoop.conf.Configuration()
fs = hadoop.fs.FileSystem.get(URI('adl://abcaccount.azuredatalakestore.net'), conf)
hadoop.fs.FileSystem.copyToLocalFile('/test/test_merge.txt','/tmp/')
错误: Py4JError: org.apache.hadoop.fs.FileSystem.copyToLocalFile 在 JVM 中不存在
注意:我尝试了暂时不想使用的 python 子进程。
【问题讨论】:
-
嗨@Harish,你到底在哪里运行这段代码?您能否提供更多详细信息以及错误消息的屏幕截图?
-
火花,jupyter 笔记本
-
为什么使用 Spark? Azure Datalake 没有 Python 库吗?
-
@cricket_007 使用 API 我们可以确保所有系统资源并且更快。具有Service原理的Python库——我暂时实现了
-
除非 ADL 下载可以并行化,否则您正在对一个地址进行阻塞调用。我看不出启动 JVM 或使用 Spark 会如何改善这一点
标签: azure hadoop pyspark azure-data-lake