【问题标题】:Run pip install py4j in pythonEvaluator transform of GCP Data Fusion在 GCP Data Fusion 的 pythonEvaluator 转换中运行 pip install py4j
【发布时间】:2020-02-04 17:12:03
【问题描述】:

我正在尝试在 Python Evaluator 的本机模式下运行“pip install py4j”。我找不到可以运行此命令来安装依赖项的位置。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。

提前致谢!

【问题讨论】:

    标签: google-cloud-platform google-cloud-data-fusion cdap


    【解决方案1】:

    对此没有直接的方法,因为您无法修改在管道内执行时使用的 Dataproc 集群。所以,如果你真的需要在 Native 模式下使用 Python 插件,我的建议是使用 py4j 库创建一个集群,然后使用 "Remote Hadoop provisioner" 将其连接到 Data Fusion。

    考虑到要使用此配置器,您需要创建一个新的计算配置文件,该配置文件仅在 Data Fusion Enterprise 版本中可用。

    要在集群中安装 py4j 库,您可以通过create a custom image with the library、提供initialization actions script 来安装它,或者通过 SSH 连接到机器并手动执行 pip install 命令。

    【讨论】:

      【解决方案2】:

      是的,Tlaquetzal 是对的,基本上,您有两种方法可以实现这一目标。

      1. 使用固定集群并在CDAP中设置Remote Hadoop Provisioner

      2. 使用库创建自定义图像。

        • 使用库doc 创建自定义图像
        #!/bin/bash
        apt-get update
        apt -y --force-yes install python3.7
        apt -y --force-yes  install python3-pip
        pip3 install py4j
        
        • 在 CDAP 计算配置文件中设置自定义映像,如下所示

      【讨论】:

        猜你喜欢
        • 2021-01-29
        • 1970-01-01
        • 1970-01-01
        • 2013-09-10
        • 1970-01-01
        • 1970-01-01
        • 2021-08-11
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多