【问题标题】:Using AWS Data pipeline - EMR vs EC2使用 AWS 数据管道 - EMR 与 EC2
【发布时间】:2015-10-06 13:31:29
【问题描述】:

我想使用 AWS Data Pipeline 执行 ETL 流程。 假设我的进程有一个小输入文件,我想使用自定义 jar 或 python 脚本进行数据转换。我看不出有任何理由使用集群 EMR 来完成这个简单的数据步骤。所以,我想在 EC2 单实例中执行这个数据步骤。

查看 EMRActivity 对象的 AWS DataPipeline,我只看到了使用 EMR 集群运行的选项。 有没有办法在 EC2 实例中运行计算步骤? 这是这个用例的最佳解决方案吗? 还是设置一个小型 EMR(带有单个节点)并执行一个 hadoop 作业更好?

【问题讨论】:

    标签: amazon-web-services amazon-ec2 emr amazon-data-pipeline


    【解决方案1】:

    如果您不需要 EMR 集群或 Hadoop 框架,并且您的执行可以轻松地在单个实例上运行,那么您可以使用与 Ec2Resource(一个实例)关联的 ShellCommandActivity 来执行工作。简单的例子在http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-getting-started.html

    【讨论】:

    • 使用 emr 集群的另一个优势是您可以将现场实例用于长时间运行的作业。这将为您节省大量资金。
    猜你喜欢
    • 1970-01-01
    • 2017-10-03
    • 2016-10-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多