【发布时间】:2011-11-07 22:33:24
【问题描述】:
我最近开始研究 MapReduce/Hadoop 框架,想知道我的问题是否真的适合该框架。
考虑一下。考虑一个示例,其中我有大量输入文本文件,此外,作为输入,我想接收大量关键字(例如,包含在单个文件中)。对于每个关键字,我想在每个文本文件中搜索并报告该文件中该关键字的实例数。 text 我会为每个关键字、每个文本文件重复此操作。
这种情况与我在网上看到的示例有些不同,因为我不仅希望将要搜索的文本文档作为输入,还希望将关键字作为搜索它们的输入。这意味着每个 Map 任务可能会多次处理同一个输入文本文件(每个关键字一次)。
这样的问题是否适合 MapReduce 框架?
【问题讨论】: