【问题标题】:How EC2 (persistent) HDFS and EMR (transient) HDFS communicateEC2(持久)HDFS 和 EMR(瞬时)HDFS 如何通信
【发布时间】:2019-11-24 20:23:22
【问题描述】:

我在 Amazon EC2 上使用 NameNode/DataNode 和其他一些服务设置了一个 Hadoop 集群。我的摄取作业将数据带入 EC2 HDFS 集群(比如说hdfs://ec2-hdfs/)。

现在我有一个每周批次运行的管道。我正在启动一个新的 Amazon EMR 集群来运行我的计算。处理完成后,我将终止 EMR 集群。

需要在 EMR 中运行的 spark 作业的输入位于 EC2 HDFS (hdfs://ec2-hdfs/) 中。如何从新创建的 EMR 集群中访问它?我相信在 EMR 集群启动期间应该有一些选项(引导/VPC/子网)可用。

【问题讨论】:

    标签: amazon-web-services apache-spark hadoop amazon-ec2 hdfs


    【解决方案1】:

    您必须在 EMR 集群启动时从 core-site.xml 引导 fs.defaultFS 以指向持久集群的 Namenode,或者您可以在代码中显式设置 hdfs://namenode:port:/ec2-hdfs

    【讨论】:

    • 感谢您的及时回复。看起来是一个合理的解决方案。我试试看。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-12
    • 1970-01-01
    相关资源
    最近更新 更多