【问题标题】:Map Reduce on data that gets generated along将生成的数据映射到 Reduce
【发布时间】:2017-05-01 12:05:38
【问题描述】:

我开始学习 Map Reduce,但我不知道它是否适用于我要解决的问题。

根据我的阅读,您从大量数据开始,然后执行 map 和 reduce 步骤以从该数据中获取结果。

我试图解决的问题有两个阶段: 1.生成 2. 修剪

基本上,当我运行程序时,我从头开始,还没有数据,但生成阶段会将数据片段写入文件。修剪阶段会删除一些对称的或包含在另一条数据中的数据。但这与我的问题无关。

相关的是,我从 scratch 开始,有 0 字节的数据,并且随着 程序运行(它将运行大约一周)一个 将产生大量数据(GB 甚至 TB 的数据)。我可以在这类问题中使用 MapReduce 方法吗?对于最初不存在或非常非常小的数据,但随着程序的运行,数据会更新并且非常大?

【问题讨论】:

    标签: hadoop apache-spark mapreduce distributed bigdata


    【解决方案1】:

    嗯,是的,你为什么不能呢?

    从技术上讲,如果你有 reduce,你就已经完成了,所以你可以在 mapreduce 集群中运行任何东西。

    哦,您可能想要量化“巨大”。

    【讨论】:

      猜你喜欢
      • 2014-06-11
      • 2016-06-17
      • 2018-02-09
      • 2012-09-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-06-21
      • 1970-01-01
      相关资源
      最近更新 更多