【问题标题】:How to "mount" data lake gen 1 without databricks如何在没有数据块的情况下“挂载”数据湖第 1 代
【发布时间】:2020-08-13 04:25:03
【问题描述】:

我们有想要在 kubernetes 中运行的 pyspark 代码。它应该从数据湖第 1 代存储中获取数据。现在,我知道在 Databricks 中要能够访问数据湖中的文件,应该首先安装它。我想问一下:a.) 有可能 b.) 方法是什么

【问题讨论】:

    标签: apache-spark kubernetes pyspark azure-data-lake


    【解决方案1】:

    我发现最简单的方法是关注 Apache Hadoop 中的 this documentation。确保将正确的 JAR 下载到类路径中。

    你需要在hadoop core-site.xml文件中设置各种参数,示例如下,使用ClientCredential和OAuth2(我用xxxx替换了private info):

    <configuration>
      <property>
          <name>fs.adl.oauth2.access.token.provider.type</name>
          <value>ClientCredential</value>
      </property>
    
      <property>
          <name>fs.adl.oauth2.refresh.url</name>
          <value>https://login.microsoftonline.com/xxxx/oauth2/token</value>
      </property>
    
      <property>
          <name>fs.adl.oauth2.client.id</name>
          <value>xxxx</value>
      </property>
    
      <property>
          <name>fs.adl.oauth2.credential</name>
          <value>xxxx</value>
      </property>
    </configuration>
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-03-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-08-31
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多