【发布时间】:2019-01-09 16:45:46
【问题描述】:
我们在 S3 中有大量文件,总共有几十 GB。我们需要将它们转换为 CSV 格式,目前文件的分隔符不是逗号。通常我会在使用 sed 的服务器上执行此操作,但我不想将文件传输到服务器,我想直接从 S3 读取,逐行转换为 CSV,然后将结果写回新的 S3 文件.
Glue 似乎能够做到这一点,但我觉得学习曲线和设置这样一个简单的任务是多余的。
是否有一些简单的方法可以完成诸如此类的简单任务,例如在 EMR 或其他 AWS 工具中?我们使用 Athena,我想知道这是否可以在使用 Athena 的 SQL 语句中完成?谢谢
【问题讨论】:
标签: amazon-web-services etl amazon-athena