【问题标题】:Spark assembly file uploaded despite spark.yarn.conf being set尽管设置了 spark.yarn.conf,但仍上传了 Spark 程序集文件
【发布时间】:2015-09-24 02:24:00
【问题描述】:

我有时通过相对较慢的连接使用 spark-submit 将作业提交到在 Yarn 上运行的 Spark 集群。为了避免为每个作业上传 156MB 的 spark-assembly 文件,我将配置选项 spark.yarn.jar 设置为 HDFS 上的文件。但是,这并没有避免上传,而是从 HDFS Spark 目录中获取程序集文件并将其复制到应用程序目录:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]    
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

我原以为应该将程序集文件复制到 HDFS 中,但实际上它似乎又被下载并再次上传,这适得其反。有什么提示吗?

【问题讨论】:

    标签: hadoop apache-spark hdfs hadoop-yarn


    【解决方案1】:
    猜你喜欢
    • 2022-08-17
    • 1970-01-01
    • 2021-04-13
    • 2022-01-14
    • 2016-08-01
    • 1970-01-01
    • 1970-01-01
    • 2012-12-08
    • 1970-01-01
    相关资源
    最近更新 更多