【问题标题】:Accessing delta lake through Pyspark on EMR notebooks通过 EMR 笔记本上的 Pyspark 访问 delta Lake
【发布时间】:2020-06-26 08:38:46
【问题描述】:

我有一个关于在 AWS EMR 笔记本上使用 delta-core 等外部库的问题。目前没有任何通过 pypi 包安装 delta-core 库的机制。可用的选项包括。

  1. 使用 --packages 选项启动 pyspark 内核
  2. 另一个选项是通过 os 配置更改 python 脚本中的 packages 选项,但我看不到它能够下载包,并且在导入 delta.tables 库时仍然出现导入错误。
  3. 第三个选项是手动下载 JAR,但 EMR 笔记本上似乎没有任何选项。

以前有人试过吗?

【问题讨论】:

    标签: python amazon-web-services amazon-emr


    【解决方案1】:
    1. 您可以在使用引导脚本创建 EMR 时下载 jars。
    2. 您可以将 jars 放入 s3 并使用 --jars 选项将其传递给 pyspark

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多