【发布时间】:2015-07-09 12:08:18
【问题描述】:
我的用例是定期处理 S3 访问日志(具有这 18 个字段)并推送到 RDS 中的表。我正在使用 AWS 数据管道来执行此任务,每天运行以处理前一天的日志。
我决定把任务分成两个活动 1. Shell 命令活动:处理 s3 访问日志并创建 csv 文件 2. Hive Activity : 从 csv 文件中读取数据并插入到 RDS 表中。
我的输入 s3 存储桶有很多日志文件,因此第一个活动由于暂存时内存不足错误而失败。但是我不想暂存所有日志,暂存前一天的日志对我来说就足够了。我在互联网上搜索,但没有得到任何解决方案。我如何做到这一点?我的解决方案是最佳解决方案吗?是否存在比这更好的解决方案?任何建议都会有所帮助
提前致谢
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-rds amazon-data-pipeline