【问题标题】:Spark Standalone Mode: Change replication factor of HDFS outputSpark Standalone Mode:更改 HDFS 输出的复制因子
【发布时间】:2013-06-18 08:17:16
【问题描述】:

在我的hdfs-site.xml 中,我将复制因子配置为 1。

但是,将我的结果写入 hdfs 时:

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

结果会自动复制 3 倍,覆盖我自己的复制因子。为了节省一些空间,我希望输出的复制因子也为 1。

spark 如何告诉 HDFS 使用复制因子 1?

【问题讨论】:

    标签: scala hdfs apache-spark


    【解决方案1】:

    我认为 spark 正在加载一个复制设置为 3 的 default hadoop config。要覆盖它,您需要设置一个环境变量或系统属性,类似于您可以找到的其他 spark 配置 here

    你可能想要这样的东西:

    System.setProperty("spark.hadoop.dfs.replication", "1")
    

    或者在你的 jvm 启动中:

     -Dspark.hadoop.dfs.replication=1
    

    希望这样的事情应该工作......

    【讨论】:

    猜你喜欢
    • 2013-06-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-07-24
    • 2013-07-21
    • 2021-12-24
    相关资源
    最近更新 更多