【发布时间】:2017-03-09 20:06:40
【问题描述】:
我们正在研究在 AWS 上创建数据湖解决方案 - 类似于此处概述的内容 - https://aws.amazon.com/blogs/big-data/introducing-the-data-lake-solution-on-aws/
我们会将所有“原始”数据存储在 S3 中,并根据需要将其加载到 EMR 或 Redshift。
在这个阶段,我正在寻找有关是使用 ETL 还是 ELT 方法将数据加载到 Amazon Redshift 的建议。我们将使用 Talend 进行 ETL/ELT。
我们应该先在 Redshift 中暂存来自 S3 的“原始”数据,然后再对其进行转换,还是应该在 S3 中转换数据并将其加载到 Redshift 中?
如果有任何建议/建议,我将不胜感激。
谢谢。
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-redshift etl talend