我可以使用什么大数据解决方案来处理大量输入文件？答案

【问题标题】：What big data solution can I use to process a huge number of input files?我可以使用什么大数据解决方案来处理大量输入文件？
【发布时间】：2014-09-14 01:09:57
【问题描述】：

我目前正在为我遇到的问题寻找最佳解决方案 + 环境。我稍微简化了问题，但基本上：

我有大量小文件上传到 Amazon S3。
我有一个规则系统，可以匹配所有文件内容（包括文件名）的任何输入，然后输出对每个文件进行分类的判定。注意：我无法合并输入文件，因为我需要每个输入文件的输出。

我得出的结论是，带有 MapReduce 的 Amazon EMR 并不是一个很好的解决方案。我正在寻找一种大数据解决方案，它擅长处理大量输入文件并对文件执行规则匹配操作，输出每个文件的判断。可能必须使用 ec2。

编辑：澄清以上 2

【问题讨论】：

标签： python amazon-ec2 bigdata amazon-sqs

【解决方案1】：

Hadoop 的问题是，当您获得大量未使用 CombineFileInput 格式合并的文件时，它会降低工作效率。

不过，Spark 似乎对此没有任何问题，我已经让 10 个 1000 个文件的作业运行没有问题，并输出 10 个 1000 个文件。没有尝试真正突破极限，不确定是否有极限！

【讨论】：

似乎我在这里强制使用 MapReduce 的想法。另外我认为您不能将 Spark 与 EMR 一起使用？你对这个问题有什么其他建议吗？是否有设计用于处理多个输入文件的出价数据解决方案？
那就不要用EMR了，用EC2在Ubuntu server 14.04上拍吧