【发布时间】:2023-03-08 06:55:01
【问题描述】:
我想使用 MongoDB 作为我正在构建的分析系统的后端。 使用 MongoDB 的主要优点之一是内置的 map reduce。 由于我们处于“中等数据”规模,我们还不需要 Hadoop 的开销。
出于测试目的,我插入了 5000 万行该类型
{
user_id: xxxx,
thing_id:xxxx,
time: xxx
}
使用 EC2 大型实例上的 user_id 索引。它是一个单实例 mongodb(未分片)。
db.user_thing_like.find({user_id: 37104857})
不到一秒。
但是,我想计算用户条目数量的 mapreduce 花了整晚,并返回内存不足错误,要么我必须做一些愚蠢的事情,要么 mongo db 不是我想做的正确工具。
我是 Mongo DB 的新手,如果有任何帮助,我将不胜感激。提前致谢
错误:
Tue Aug 9 13:15:58 uncaught exception: map reduce failed:{
"assertion" : "invoke failed: JS Error: out of memory nofile_b:2",
"assertionCode" : 9004,
"errmsg" : "db assertion failure",
"ok" : 0
}
MAPREDUCE 查询:
db.user_thing_like.mapReduce(map, reduce, {out: "tmp_test"}, {query: {"user_id" : 37104857 }});
映射和减少:
map = function () {
for (var key in this) {
emit(key.user_id, {count: 1});
}
};
reduce = function (key, emits) {
total = 0;
for (var i in emits) {
total += emits[i].count;
}
return {"count": total};
}
--- 更新 ---
我意识到在我使用的语法中,mapreduce 没有考虑我的查询过滤器。
这是正确的 mapreduce 查询。
db.runCommand({mapreduce: "user_thing_like", map: map, reduce: reduce, out: "tmp_test", query: {"user_id" : 37104857 }});
【问题讨论】: