Spark Standalone Mode：更改 HDFS 输出的复制因子

【问题标题】：Spark Standalone Mode: Change replication factor of HDFS outputSpark Standalone Mode：更改 HDFS 输出的复制因子
【发布时间】：2013-06-18 08:17:16
【问题描述】：

在我的hdfs-site.xml 中，我将复制因子配置为 1。

但是，将我的结果写入 hdfs 时：

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

结果会自动复制 3 倍，覆盖我自己的复制因子。为了节省一些空间，我希望输出的复制因子也为 1。

spark 如何告诉 HDFS 使用复制因子 1？

【问题讨论】：

标签： scala hdfs apache-spark

【解决方案1】：

我认为 spark 正在加载一个复制设置为 3 的 default hadoop config。要覆盖它，您需要设置一个环境变量或系统属性，类似于您可以找到的其他 spark 配置 here。

你可能想要这样的东西：

System.setProperty("spark.hadoop.dfs.replication", "1")

或者在你的 jvm 启动中：

 -Dspark.hadoop.dfs.replication=1

希望这样的事情应该工作......

【讨论】：

标准java设置属性的方式docs.oracle.com/javase/6/docs/technotes/tools/windows/…