EC2（持久）HDFS 和 EMR（瞬时）HDFS 如何通信答案

【问题标题】：How EC2 (persistent) HDFS and EMR (transient) HDFS communicateEC2（持久）HDFS 和 EMR（瞬时）HDFS 如何通信
【发布时间】：2019-11-24 20:23:22
【问题描述】：

我在 Amazon EC2 上使用 NameNode/DataNode 和其他一些服务设置了一个 Hadoop 集群。我的摄取作业将数据带入 EC2 HDFS 集群（比如说hdfs://ec2-hdfs/）。

现在我有一个每周批次运行的管道。我正在启动一个新的 Amazon EMR 集群来运行我的计算。处理完成后，我将终止 EMR 集群。

需要在 EMR 中运行的 spark 作业的输入位于 EC2 HDFS (hdfs://ec2-hdfs/) 中。如何从新创建的 EMR 集群中访问它？我相信在 EMR 集群启动期间应该有一些选项（引导/VPC/子网）可用。

【问题讨论】：

【解决方案1】：

您必须在 EMR 集群启动时从 core-site.xml 引导 fs.defaultFS 以指向持久集群的 Namenode，或者您可以在代码中显式设置 hdfs://namenode:port:/ec2-hdfs。

【讨论】：