【发布时间】:2017-10-03 01:38:37
【问题描述】:
我使用 AWS Data Pipeline 导出了一个 DynamoDB 表,其中 DataNodes > S3BackupLocation > Compression 设置为 GZIP。我期望带有.gz 扩展名的压缩输出,但我得到了没有扩展名的未压缩输出。
Further reading 显示压缩字段“仅支持用于 Amazon Redshift 以及当您将 S3DataNode 与 CopyActivity 一起使用时。”
如何将我的 DynamoDB 表的 gzip 备份到 S3?我必须求助于下载所有文件,压缩它们并上传它们吗?有没有办法让管道与 CopyActivity 一起工作?有更好的方法吗?
我一直在尝试使用 Hive 进行导出,但我还没有找到在输出中正确设置格式的方法。它需要与以下格式匹配,以便 EMR 作业可以将其与其他来源的数据一起读取。
{"col1":{"n":"596487.0550532"},"col2":{"s":"xxxx-xxxx-xxxx"},"col3":{"s":"xxxx-xxxx-xxxx"}}
{"col1":{"n":"234573.7390354"},"col2":{"s":"xxxx-xxxx-xxxx"},"col3":{"s":"xxxx-xxxxx-xx"}}
{"col2":{"s":"xxxx-xxxx-xxxx"},"col1":{"n":"6765424.7390354"},"col3":{"s":"xxxx-xxxxx-xx"}}
【问题讨论】:
标签: amazon-web-services amazon-s3 hive amazon-dynamodb amazon-data-pipeline