【发布时间】:2015-10-06 13:31:29
【问题描述】:
我想使用 AWS Data Pipeline 执行 ETL 流程。 假设我的进程有一个小输入文件,我想使用自定义 jar 或 python 脚本进行数据转换。我看不出有任何理由使用集群 EMR 来完成这个简单的数据步骤。所以,我想在 EC2 单实例中执行这个数据步骤。
查看 EMRActivity 对象的 AWS DataPipeline,我只看到了使用 EMR 集群运行的选项。 有没有办法在 EC2 实例中运行计算步骤? 这是这个用例的最佳解决方案吗? 还是设置一个小型 EMR(带有单个节点)并执行一个 hadoop 作业更好?
【问题讨论】:
标签: amazon-web-services amazon-ec2 emr amazon-data-pipeline