将巨大的 CSV 文件加载到 DynamoDb 中的更好/最佳方法答案

【问题标题】：Better/best approach to load huge CSV file into DynamoDb将巨大的 CSV 文件加载到 DynamoDb 中的更好/最佳方法
【发布时间】：2017-08-20 10:21:38
【问题描述】：

我的本地机器上有一个巨大的.csv 文件。我想将该数据加载到 DynamoDB（eu-west-1，爱尔兰）中。你会怎么做？

如果您是我，请告诉我在 DynamoDB 中获取 huge CSV 文件的最佳方法是什么。我想尽量减少“第二次”上传的工作量。

我更喜欢使用 Node.js 或 R。Python 作为最后的解决方案可能是可以接受的。

【问题讨论】：

【解决方案1】：

如果你想以 AWS 的方式来做，那么数据管道可能是最好的方法：

这里有一个教程，它比你需要的更多，但应该可以帮助你入门：

本教程的第一部分解释了如何定义 AWS 数据从 Amazon 中的制表符分隔文件中检索数据的管道管道 S3 填充 DynamoDB 表，使用 Hive 脚本定义必要的数据转换步骤，并自动创建一个 Amazon EMR 集群来执行这项工作。

【讨论】：

【解决方案2】：

如果您的所有数据都在 S3 中，您可以使用 AWS 数据管道的预定义模板“从 S3 导入 DynamoDB 数据”。配置应该很简单。

【讨论】：