【发布时间】:2020-02-04 17:12:03
【问题描述】:
我正在尝试在 Python Evaluator 的本机模式下运行“pip install py4j”。我找不到可以运行此命令来安装依赖项的位置。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。
提前致谢!
【问题讨论】:
标签: google-cloud-platform google-cloud-data-fusion cdap
我正在尝试在 Python Evaluator 的本机模式下运行“pip install py4j”。我找不到可以运行此命令来安装依赖项的位置。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。
提前致谢!
【问题讨论】:
标签: google-cloud-platform google-cloud-data-fusion cdap
对此没有直接的方法,因为您无法修改在管道内执行时使用的 Dataproc 集群。所以,如果你真的需要在 Native 模式下使用 Python 插件,我的建议是使用 py4j 库创建一个集群,然后使用 "Remote Hadoop provisioner" 将其连接到 Data Fusion。
考虑到要使用此配置器,您需要创建一个新的计算配置文件,该配置文件仅在 Data Fusion Enterprise 版本中可用。
要在集群中安装 py4j 库,您可以通过create a custom image with the library、提供initialization actions script 来安装它,或者通过 SSH 连接到机器并手动执行 pip install 命令。
【讨论】:
是的,Tlaquetzal 是对的,基本上,您有两种方法可以实现这一目标。
使用固定集群并在CDAP中设置Remote Hadoop Provisioner
使用库创建自定义图像。
#!/bin/bash
apt-get update
apt -y --force-yes install python3.7
apt -y --force-yes install python3-pip
pip3 install py4j
【讨论】: