【发布时间】:2019-03-16 10:31:00
【问题描述】:
我正在尽量减少对代码的更改,因此我想知道是否有办法从我的个人 PC/VM 提交火花流作业,如下所示:
spark-submit --class path.to.your.Class --master yarn --deploy-mode client \
[options] <app jar> [app options]
不使用 GCP SDK。
我还必须指定一个目录,其中包含我可以从 Ambari 下载的配置文件 HADOOP_CONF_DIR。
有没有办法做同样的事情?
谢谢
【问题讨论】:
-
没有不涉及云 sdk 的方法。可以使用
dataproc jobs submit或compute ssh -c。为什么不想使用 cloud sdk? -
@tix 以前我在独立模式下使用 Spark,并且在每个 batchFinish 上我都在执行一个外部脚本。所以我想在本地运行 Spark 驱动程序,在客户端进程
--deploy-mode client(我将修复我的示例)中能够运行外部脚本。 -
为了能够使用本地工具,您需要打开 VM 端口,除非您有桥接的 VPC,否则不建议这样做。如果问题是运行脚本,您可以通过初始化操作将其下载到主 VM,或者将其作为资源打包到您的 jar 中,并在程序启动时提取。
-
此脚本在我的主服务的上下文中运行,因此我无法将其提取到 Dataproc 主服务器中。如果我将在与 Dataproc 相同的项目中的 GCP 中创建 VM 并配置网络,您认为可以在 VM 上运行 spark 驱动程序吗?我只是不确定我在哪里可以得到
HADOOP CONFIGURATION FILES