检查点流数据到 HDFS 集群答案

【问题标题】：Checkpoint stream data to HDFS clulster检查点流数据到 HDFS 集群
【发布时间】：2018-09-04 18:08:16
【问题描述】：

我有一个 HDFS 集群，它有两个 NameNode。通常，如果使用 HDFS 客户端来保存数据，它会在其中一个出现故障时负责使用哪个 NameNode。

但在 Spark 中，对于检查点，API 是：StreamingCONtext.checkpoint("hdfs://100.90.100.11:9000/sparkData")。

这里我只能指定一个NameNode，如果出现故障，Spark没有智能切换到第二个。

有人可以帮我吗？

如果我将此 XML 放在类路径中，Spark 是否可以理解“hdfs-site.xml”（其中包含两个名称节点的信息）。

【问题讨论】：

标签： hdfs spark-streaming spark-checkpoint

【解决方案1】：

好的，我找到了答案。您可以使用以下语法添加 core-site.xml、hdfs-site.xml 等资源：

SparkContext.hadoopConfiguration().addResource(ABC.class.getClassLoader().getResource("core-site.xml")); SparkContext.hadoopConfiguration().addResource(ABC.class.getClassLoader().getResource("hdfs-site.xml"));

【讨论】：