将生成的数据映射到 Reduce答案

【问题标题】：Map Reduce on data that gets generated along将生成的数据映射到 Reduce
【发布时间】：2017-05-01 12:05:38
【问题描述】：

我开始学习 Map Reduce，但我不知道它是否适用于我要解决的问题。

根据我的阅读，您从大量数据开始，然后执行 map 和 reduce 步骤以从该数据中获取结果。

我试图解决的问题有两个阶段： 1.生成 2. 修剪

基本上，当我运行程序时，我从头开始，还没有数据，但生成阶段会将数据片段写入文件。修剪阶段会删除一些对称的或包含在另一条数据中的数据。但这与我的问题无关。

相关的是，我从 scratch 开始，有 0 字节的数据，并且随着 程序运行（它将运行大约一周）一个 将产生大量数据（GB 甚至 TB 的数据）。我可以在这类问题中使用 MapReduce 方法吗？对于最初不存在或非常非常小的数据，但随着程序的运行，数据会更新并且非常大？

【问题讨论】：

【解决方案1】：

嗯，是的，你为什么不能呢？

从技术上讲，如果你有 reduce，你就已经完成了，所以你可以在 mapreduce 集群中运行任何东西。

哦，您可能想要量化“巨大”。

【讨论】：