【问题标题】:How to pass env variables in dataproc submit command?如何在 dataproc 提交命令中传递环境变量?
【发布时间】:2022-01-07 07:14:51
【问题描述】:

我希望能够在通过 dataproc submit 提交作业时设置以下环境变量:

  1. SPARK_HOME
  2. PYSPARK_PYTHON
  3. SPARK_CONF_DIR
  4. HADOOP_CONF_DIR

我怎样才能做到这一点?

【问题讨论】:

  • 您能否阐明设置这些变量时的目标是什么?通常,Dataproc 会为作业配置环境,例如SPARK_HOME 设置正确。您是否尝试覆盖默认位置?
  • 感谢@JerryDing 抽出宝贵时间 :) Dataproc 不适用于 pyspark 3.2。 Pyspark 3.2.0 发布了用于 pyspark 的 pandas API,我必须为它编写管道。因此,我正在使用 env yaml 创建集群,该集群将 pyspark 作为包安装在其中。然后我将覆盖上述环境变量以使用此 pyspark 3.2.0。请提出改进​​/建议。

标签: apache-spark pyspark google-cloud-dataproc spark-submit dataproc


【解决方案1】:

查看文档Setting environment variables on Dataproc cluster nodes,了解如何为 Dataproc 中的不同组件设置环境变量。

【讨论】:

    猜你喜欢
    • 2020-11-11
    • 1970-01-01
    • 2019-07-15
    • 1970-01-01
    • 1970-01-01
    • 2020-03-07
    • 2018-02-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多