如何在没有数据块的情况下“挂载”数据湖第 1 代

【问题标题】：How to "mount" data lake gen 1 without databricks如何在没有数据块的情况下“挂载”数据湖第 1 代
【发布时间】：2020-08-13 04:25:03
【问题描述】：

我们有想要在 kubernetes 中运行的 pyspark 代码。它应该从数据湖第 1 代存储中获取数据。现在，我知道在 Databricks 中要能够访问数据湖中的文件，应该首先安装它。我想问一下：a.) 有可能 b.) 方法是什么

【问题讨论】：

标签： apache-spark kubernetes pyspark azure-data-lake

【解决方案1】：

我发现最简单的方法是关注 Apache Hadoop 中的 this documentation。确保将正确的 JAR 下载到类路径中。

你需要在hadoop core-site.xml文件中设置各种参数，示例如下，使用ClientCredential和OAuth2（我用xxxx替换了private info）：

<configuration>
  <property>
      <name>fs.adl.oauth2.access.token.provider.type</name>
      <value>ClientCredential</value>
  </property>

  <property>
      <name>fs.adl.oauth2.refresh.url</name>
      <value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
  </property>

  <property>
      <name>fs.adl.oauth2.client.id</name>
      <value>xxxx</value>
  </property>

  <property>
      <name>fs.adl.oauth2.credential</name>
      <value>xxxx</value>
  </property>
</configuration>

【讨论】：