使用 AWS 数据管道 - EMR 与 EC2

【问题标题】：Using AWS Data pipeline - EMR vs EC2使用 AWS 数据管道 - EMR 与 EC2
【发布时间】：2015-10-06 13:31:29
【问题描述】：

我想使用 AWS Data Pipeline 执行 ETL 流程。假设我的进程有一个小输入文件，我想使用自定义 jar 或 python 脚本进行数据转换。我看不出有任何理由使用集群 EMR 来完成这个简单的数据步骤。所以，我想在 EC2 单实例中执行这个数据步骤。

查看 EMRActivity 对象的 AWS DataPipeline，我只看到了使用 EMR 集群运行的选项。有没有办法在 EC2 实例中运行计算步骤？这是这个用例的最佳解决方案吗？还是设置一个小型 EMR（带有单个节点）并执行一个 hadoop 作业更好？

【问题讨论】：

标签： amazon-web-services amazon-ec2 emr amazon-data-pipeline

【解决方案1】：

如果您不需要 EMR 集群或 Hadoop 框架，并且您的执行可以轻松地在单个实例上运行，那么您可以使用与 Ec2Resource（一个实例）关联的 ShellCommandActivity 来执行工作。简单的例子在http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-getting-started.html

【讨论】：

使用 emr 集群的另一个优势是您可以将现场实例用于长时间运行的作业。这将为您节省大量资金。

猜你喜欢

1970-01-01
2017-10-03
2016-10-24
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-04-04
下载 2022-12-29
下载 2022-12-07

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode