【发布时间】:2019-11-22 07:27:26
【问题描述】:
我在创建 DataProc 自定义图像和 Pyspark 时遇到问题。 我的自定义映像基于 DataProc 1.4.1-debian9,并使用我的初始化脚本从 requirements.txt 文件安装 python3 和一些包,然后设置 python3 env 变量以强制 pyspark 使用 python3。 但是,当我在使用此图像创建的集群(为简单起见,使用单节点标志)上提交作业时,该作业找不到已安装的软件包。 如果我登录集群机器并运行 pyspark 命令,则启动 Anaconda PySpark,但如果我以 root 用户登录并运行 pyspark,我将使用 python 3.5.3 获得 pyspark。 这是一个很奇怪的事情。 我不明白的是哪个用户用于创建图像? 为什么我的用户和 root 用户有不同的环境? 我希望该映像是使用 root 用户配置的,所以我希望我安装的所有软件包都可以从 root 用户中找到。 提前致谢
【问题讨论】:
标签: python google-cloud-platform pyspark google-cloud-dataproc