【发布时间】:2013-10-04 21:46:15
【问题描述】:
我需要创建一个系统,需要获取 TB 级的数值数据并回答三个问题:1. Min, 2. Max, 3. Total count
一位朋友建议 Hadoop 使用 map-reduce,reduce 步骤总是对数据进行排序。这会导致 O(nlogn) 的复杂性,即使对于 O(n) 查询,例如 min、max 和总计数。
我一直在网上搜索;但是,我一直无法找到答案。有人可以帮忙吗?我是这个领域的新手,所以请原谅我缺乏知识。
谢谢!
【问题讨论】:
标签: hadoop