【发布时间】:2014-06-03 05:48:58
【问题描述】:
我有一个使用 Meteor Up to Digital Ocean 部署的 Meteor (0.8.0) 应用程序,该应用程序一直卡在 100% 的 CPU 上,只是因为内存不足而崩溃,然后以 100% 的 CPU 重新启动。在过去的 24 小时里,它一直处于这样的状态。奇怪的是没有人使用服务器,meteor.log 没有显示太多线索。我有用于数据库的带有 oplog 的 MongoHQ。
数字海洋规格:
1GB Ram 30GB SSD 磁盘纽约 2 Ubuntu 12.04.3 x64
显示问题的屏幕截图:
请注意,屏幕截图是昨天捕获的,它一直固定在 100% cpu,直到它因内存不足而崩溃。日志显示:
致命错误:疏散分配失败 - 进程内存不足 错误:永远检测到的脚本被信号杀死:SIGABRT 错误: 5次永远重启脚本
热门展示:
26308 流星 20 0 1573m 644m 4200 R 98.1 64.7 32:45.36 节点
它是如何开始的: 我有一个应用程序,它通过 csv 或 mailchimp oauth 接收电子邮件列表,通过他们的批处理调用 http://www.fullcontact.com/developer/docs/batch/ 将它们发送给 fullcontact,然后根据响应状态相应地更新 Meteor 集合。来自 200 响应的 sn-p
if (result.statusCode === 200) {
var data = JSON.parse(result.content);
var rate_limit = result.headers['x-rate-limit-limit'];
var rate_limit_remaining = result.headers['x-rate-limit-remaining'];
var rate_limit_reset = result.headers['x-rate-limit-reset'];
console.log(rate_limit);
console.log(rate_limit_remaining);
console.log(rate_limit_reset);
_.each(data.responses, function(resp, key) {
var email = key.split('=')[1];
if (resp.status === 200) {
var sel = {
email: email,
listId: listId
};
Profiles.upsert({
email: email,
listId: listId
}, {
$set: sel
}, function(err, result) {
if (!err) {
console.log("Upsert ", result);
fullContactSave(resp, email, listId, Meteor.userId());
}
});
RawCsv.update({
email: email,
listId: listId
}, {
$set: {
processed: true,
status: 200,
updated_at: new Date().getTime()
}
}, {
multi: true
});
}
});
}
在我运行 Vagrant 的 Windows 笔记本电脑上,我一次处理数十万封电子邮件没有任何性能问题。但是在 Digital Ocean 上,它似乎甚至无法处理 15,000(我已经看到 CPU 飙升到 100%,然后因 OOM 而崩溃,但在它出现之后它通常会稳定下来......这次不是)。让我担心的是,尽管应用程序上没有/很少活动,但服务器根本没有恢复。我已经通过查看分析验证了这一点 - GA 显示 24 小时内总共有 9 个会话,除了点击/弹跳之外,MixPanel 仅显示 1 个登录用户(我)在同一时间范围内。自从最初的失败后,我唯一做的就是检查facts 包,它显示:
mongo-livedata 观察多路复用器 13 观察驱动程序-oplog 13
oplog-watchers 16 观察句柄 15 花费在查询阶段的时间
87828 time-spent-in-FETCHING-phase 82 livedata
invalidation-crossbar-listeners 16 个订阅 11 个会话 1
Meteor APM 也没有显示任何异常,meteor.log 没有显示除 OOM 和重启消息之外的任何流星活动。 MongoHQ 没有报告任何运行缓慢的查询或大量活动 - 0 次查询、更新、插入、删除平均来自盯着他们的监控仪表板。据我所知,24 小时内没有太多活动,当然也没有任何密集的活动。从那以后,我尝试安装 newrelic 和 nodetime,但两者都无法正常工作 - newrelic 没有显示任何数据,meteor.log 有一个 nodetime 调试消息
加载节点时间原生扩展失败。
因此,当我尝试使用 nodetime 的 CPU 分析器时,它显示为空白,并且堆快照返回 错误:未加载 V8 工具。
在这一点上我基本上没有想法,而且由于 Node 对我来说很新,所以感觉就像我在这里在黑暗中冒险。请帮忙。
更新:服务器在四天后仍保持在 100%。即使是 init 6 也不会做任何事情 - 服务器重新启动,节点进程启动并跳回到 100% cpu。我尝试了其他工具,例如 memwatch 和 webkit-devtools-agent,但无法让它们与 Meteor 一起使用。
以下是strace的输出
strace -c -p 6840
附加进程 6840 - 中断退出
^CProcess 6840 分离
% time seconds usecs/call 调用错误 syscall
77.17 0.073108 1 113701 epoll_wait
11.15 0.010559 0 80106 39908 映射
6.66 0.006309 0 116907 读取
2.09 0.001982 0 84445 富特克斯
1.49 0.001416 0 45176 写入
0.68 0.000646 0 119975 地图
0.58 0.000549 0 227402 时钟获取时间
0.10 0.000095 0 117617 rt_sigprocmask
0.04 0.000040 0 30471 epoll_ctl
0.03 0.000031 0 71428 获取时间
0.00 0.000000 0 36 保护
0.00 0.000000 0 4 刹车
100.00 0.094735 1007268 39908 总计
所以看起来节点进程大部分时间都花在了 epoll_wait 上。
【问题讨论】:
-
我不熟悉 Meteor,但您使用 _.each 来迭代结果并对可能庞大的项目集合执行异步 I/O。这意味着如果您有 15,000 个项目,所有 15,000 个 upsert 等都将尝试同时写入。您应该尝试使用 async.eachLimit 或类似的方法。
标签: node.js ubuntu meteor ubuntu-12.04 digital-ocean