【发布时间】:2014-09-14 01:09:57
【问题描述】:
我目前正在为我遇到的问题寻找最佳解决方案 + 环境。我稍微简化了问题,但基本上:
- 我有大量小文件上传到 Amazon S3。
- 我有一个规则系统,可以匹配所有文件内容(包括文件名)的任何输入,然后输出对每个文件进行分类的判定。注意:我无法合并输入文件,因为我需要每个输入文件的输出。
我得出的结论是,带有 MapReduce 的 Amazon EMR 并不是一个很好的解决方案。我正在寻找一种大数据解决方案,它擅长处理大量输入文件并对文件执行规则匹配操作,输出每个文件的判断。可能必须使用 ec2。
编辑:澄清以上 2
【问题讨论】:
标签: python amazon-ec2 bigdata amazon-sqs