【发布时间】:2020-08-13 04:25:03
【问题描述】:
我们有想要在 kubernetes 中运行的 pyspark 代码。它应该从数据湖第 1 代存储中获取数据。现在,我知道在 Databricks 中要能够访问数据湖中的文件,应该首先安装它。我想问一下:a.) 有可能 b.) 方法是什么
【问题讨论】:
标签: apache-spark kubernetes pyspark azure-data-lake
我们有想要在 kubernetes 中运行的 pyspark 代码。它应该从数据湖第 1 代存储中获取数据。现在,我知道在 Databricks 中要能够访问数据湖中的文件,应该首先安装它。我想问一下:a.) 有可能 b.) 方法是什么
【问题讨论】:
标签: apache-spark kubernetes pyspark azure-data-lake
我发现最简单的方法是关注 Apache Hadoop 中的 this documentation。确保将正确的 JAR 下载到类路径中。
你需要在hadoop core-site.xml文件中设置各种参数,示例如下,使用ClientCredential和OAuth2(我用xxxx替换了private info):
<configuration>
<property>
<name>fs.adl.oauth2.access.token.provider.type</name>
<value>ClientCredential</value>
</property>
<property>
<name>fs.adl.oauth2.refresh.url</name>
<value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
</property>
<property>
<name>fs.adl.oauth2.client.id</name>
<value>xxxx</value>
</property>
<property>
<name>fs.adl.oauth2.credential</name>
<value>xxxx</value>
</property>
</configuration>
【讨论】: