【发布时间】:2017-05-01 12:05:38
【问题描述】:
我开始学习 Map Reduce,但我不知道它是否适用于我要解决的问题。
根据我的阅读,您从大量数据开始,然后执行 map 和 reduce 步骤以从该数据中获取结果。
我试图解决的问题有两个阶段: 1.生成 2. 修剪
基本上,当我运行程序时,我从头开始,还没有数据,但生成阶段会将数据片段写入文件。修剪阶段会删除一些对称的或包含在另一条数据中的数据。但这与我的问题无关。
相关的是,我从 scratch 开始,有 0 字节的数据,并且随着 程序运行(它将运行大约一周)一个 将产生大量数据(GB 甚至 TB 的数据)。我可以在这类问题中使用 MapReduce 方法吗?对于最初不存在或非常非常小的数据,但随着程序的运行,数据会更新并且非常大?
【问题讨论】:
标签: hadoop apache-spark mapreduce distributed bigdata