【发布时间】:2013-09-18 12:25:54
【问题描述】:
我们在 MongoDB 中有一组数据,我们正在减少地图(两次),我们现在将使用 Mongo 的地图减少,但我正在考虑如何在未来扩展和提高性能,并且正在考虑关于 Hadoop。
我读到的关于 Hadoop 的大部分内容都是关于大数据、TB 级的内容,而当我们要处理兆字节、10 到 100 万条记录时。 (虽然其中可能有许多同时运行,所以虽然单个任务很小,但总体可能很大)。
我们真的希望从小数据中获得疯狂的性能,而不是让大数据成为可能。即在 MongoDB 中获取 map reduce 结果需要 10 秒,而在 Hadoop 中需要几秒或亚秒。
这可能吗?
Hadoop 适合这个吗?
如果没有,还有哪些其他技术可以实现这一点?
这是需要的确切问题的详细信息以及我迄今为止的解决方案,可以在这个问题中找到:Linear funnel from a collection of events with MongoDB aggregation, is it possible?
【问题讨论】:
-
我不打算回答这个问题,因为我不了解 Hadoop,但是阅读这个问题的答案和链接的问题,我想知道是否考虑到所涉及的数据的大小,你可能会从将数据存储在内存中的自定义应用程序中获得更好的解决方案。计算方式不同,但我有类似的需求:最大速度。我们找到的唯一解决方案是更多 RAM!