【发布时间】:2022-01-07 07:14:51
【问题描述】:
我希望能够在通过 dataproc submit 提交作业时设置以下环境变量:
- SPARK_HOME
- PYSPARK_PYTHON
- SPARK_CONF_DIR
- HADOOP_CONF_DIR
我怎样才能做到这一点?
【问题讨论】:
-
您能否阐明设置这些变量时的目标是什么?通常,Dataproc 会为作业配置环境,例如SPARK_HOME 设置正确。您是否尝试覆盖默认位置?
-
感谢@JerryDing 抽出宝贵时间 :) Dataproc 不适用于 pyspark 3.2。 Pyspark 3.2.0 发布了用于 pyspark 的 pandas API,我必须为它编写管道。因此,我正在使用 env yaml 创建集群,该集群将 pyspark 作为包安装在其中。然后我将覆盖上述环境变量以使用此 pyspark 3.2.0。请提出改进/建议。
标签: apache-spark pyspark google-cloud-dataproc spark-submit dataproc