【发布时间】:2019-11-24 20:23:22
【问题描述】:
我在 Amazon EC2 上使用 NameNode/DataNode 和其他一些服务设置了一个 Hadoop 集群。我的摄取作业将数据带入 EC2 HDFS 集群(比如说hdfs://ec2-hdfs/)。
现在我有一个每周批次运行的管道。我正在启动一个新的 Amazon EMR 集群来运行我的计算。处理完成后,我将终止 EMR 集群。
需要在 EMR 中运行的 spark 作业的输入位于 EC2 HDFS (hdfs://ec2-hdfs/) 中。如何从新创建的 EMR 集群中访问它?我相信在 EMR 集群启动期间应该有一些选项(引导/VPC/子网)可用。
【问题讨论】:
标签: amazon-web-services apache-spark hadoop amazon-ec2 hdfs