【问题标题】:What big data solution can I use to process a huge number of input files?我可以使用什么大数据解决方案来处理大量输入文件?
【发布时间】:2014-09-14 01:09:57
【问题描述】:

我目前正在为我遇到的问题寻找最佳解决方案 + 环境。我稍微简化了问题,但基本上:

  1. 我有大量小文件上传到 Amazon S3。
  2. 我有一个规则系统,可以匹配所有文件内容(包括文件名)的任何输入,然后输出对每个文件进行分类的判定。注意:我无法合并输入文件,因为我需要每个输入文件的输出。

我得出的结论是,带有 MapReduce 的 Amazon EMR 并不是一个很好的解决方案。我正在寻找一种大数据解决方案,它擅长处理大量输入文件并对文件执行规则匹配操作,输出每个文件的判断。可能必须使用 ec2。

编辑:澄清以上 2

【问题讨论】:

    标签: python amazon-ec2 bigdata amazon-sqs


    【解决方案1】:

    Hadoop 的问题是,当您获得大量未使用 CombineFileInput 格式合并的文件时,它会降低工作效率。

    不过,Spark 似乎对此没有任何问题,我已经让 10 个 1000 个文件的作业运行没有问题,并输出 10 个 1000 个文件。没有尝试真正突破极限,不确定是否有极限!

    【讨论】:

    • 似乎我在这里强制使用 MapReduce 的想法。另外我认为您不能将 Spark 与 EMR 一起使用?你对这个问题有什么其他建议吗?是否有设计用于处理多个输入文件的出价数据解决方案?
    • 那就不要用EMR了,用EC2在Ubuntu server 14.04上拍吧
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-09-04
    • 2011-05-12
    • 2018-06-07
    • 2011-01-17
    • 2011-03-05
    • 2015-02-20
    相关资源
    最近更新 更多