部署到 Digital Ocean 的 Meteor 应用程序卡在 100% CPU 和 OOM答案

【问题标题】：Meteor app deployed to Digital Ocean stuck at 100% CPU and OOM部署到 Digital Ocean 的 Meteor 应用程序卡在 100% CPU 和 OOM
【发布时间】：2014-06-03 05:48:58
【问题描述】：

我有一个使用 Meteor Up to Digital Ocean 部署的 Meteor (0.8.0) 应用程序，该应用程序一直卡在 100% 的 CPU 上，只是因为内存不足而崩溃，然后以 100% 的 CPU 重新启动。在过去的 24 小时里，它一直处于这样的状态。奇怪的是没有人使用服务器，meteor.log 没有显示太多线索。我有用于数据库的带有 oplog 的 MongoHQ。

数字海洋规格：

1GB Ram 30GB SSD 磁盘纽约 2 Ubuntu 12.04.3 x64

显示问题的屏幕截图：

请注意，屏幕截图是昨天捕获的，它一直固定在 100% cpu，直到它因内存不足而崩溃。日志显示：

致命错误：疏散分配失败 - 进程内存不足错误：永远检测到的脚本被信号杀死：SIGABRT 错误： 5次永远重启脚本

热门展示：

26308 流星 20 0 1573m 644m 4200 R 98.1 64.7 32:45.36 节点

它是如何开始的：我有一个应用程序，它通过 csv 或 mailchimp oauth 接收电子邮件列表，通过他们的批处理调用 http://www.fullcontact.com/developer/docs/batch/ 将它们发送给 fullcontact，然后根据响应状态相应地更新 Meteor 集合。来自 200 响应的 sn-p

if (result.statusCode === 200) {
            var data = JSON.parse(result.content);
            var rate_limit = result.headers['x-rate-limit-limit'];
            var rate_limit_remaining = result.headers['x-rate-limit-remaining'];
            var rate_limit_reset = result.headers['x-rate-limit-reset'];
            console.log(rate_limit);
            console.log(rate_limit_remaining);
            console.log(rate_limit_reset);
            _.each(data.responses, function(resp, key) {
                var email = key.split('=')[1];
                if (resp.status === 200) {
                    var sel = {
                        email: email,
                        listId: listId
                    };
                    Profiles.upsert({
                        email: email,
                        listId: listId
                    }, {
                        $set: sel
                    }, function(err, result) {
                        if (!err) {
                            console.log("Upsert ", result);
                            fullContactSave(resp, email, listId, Meteor.userId());                            
                        }
                    });
                    RawCsv.update({
                        email: email,
                        listId: listId
                    }, {
                        $set: {
                            processed: true,
                            status: 200,
                            updated_at: new Date().getTime()
                        }
                    }, {
                        multi: true
                    });
                }
                });
                }

在我运行 Vagrant 的 Windows 笔记本电脑上，我一次处理数十万封电子邮件没有任何性能问题。但是在 Digital Ocean 上，它似乎甚至无法处理 15,000（我已经看到 CPU 飙升到 100%，然后因 OOM 而崩溃，但在它出现之后它通常会稳定下来......这次不是）。让我担心的是，尽管应用程序上没有/很少活动，但服务器根本没有恢复。我已经通过查看分析验证了这一点 - GA 显示 24 小时内总共有 9 个会话，除了点击/弹跳之外，MixPanel 仅显示 1 个登录用户（我）在同一时间范围内。自从最初的失败后，我唯一做的就是检查facts 包，它显示：

mongo-livedata 观察多路复用器 13 观察驱动程序-oplog 13

oplog-watchers 16 观察句柄 15 花费在查询阶段的时间

87828 time-spent-in-FETCHING-phase 82 livedata

invalidation-crossbar-listeners 16 个订阅 11 个会话 1

Meteor APM 也没有显示任何异常，meteor.log 没有显示除 OOM 和重启消息之外的任何流星活动。 MongoHQ 没有报告任何运行缓慢的查询或大量活动 - 0 次查询、更新、插入、删除平均来自盯着他们的监控仪表板。据我所知，24 小时内没有太多活动，当然也没有任何密集的活动。从那以后，我尝试安装 newrelic 和 nodetime，但两者都无法正常工作 - newrelic 没有显示任何数据，meteor.log 有一个 nodetime 调试消息

加载节点时间原生扩展失败。

因此，当我尝试使用 nodetime 的 CPU 分析器时，它显示为空白，并且堆快照返回 错误：未加载 V8 工具。

在这一点上我基本上没有想法，而且由于 Node 对我来说很新，所以感觉就像我在这里在黑暗中冒险。请帮忙。

更新：服务器在四天后仍保持在 100%。即使是 init 6 也不会做任何事情 - 服务器重新启动，节点进程启动并跳回到 100% cpu。我尝试了其他工具，例如 memwatch 和 webkit-devtools-agent，但无法让它们与 Meteor 一起使用。

以下是strace的输出

strace -c -p 6840

附加进程 6840 - 中断退出

^CProcess 6840 分离

% time seconds usecs/call 调用错误 syscall

77.17 0.073108 1 113701 epoll_wait

11.15 0.010559 0 80106 39908 映射

6.66 0.006309 0 116907 读取

2.09 0.001982 0 84445 富特克斯

1.49 0.001416 0 45176 写入

0.68 0.000646 0 119975 地图

0.58 0.000549 0 227402 时钟获取时间

0.10 0.000095 0 117617 rt_sigprocmask

0.04 0.000040 0 30471 epoll_ctl

0.03 0.000031 0 71428 获取时间

0.00 0.000000 0 36 保护

0.00 0.000000 0 4 刹车

100.00 0.094735 1007268 39908 总计

所以看起来节点进程大部分时间都花在了 epoll_wait 上。

【问题讨论】：

我不熟悉 Meteor，但您使用 _.each 来迭代结果并对可能庞大的项目集合执行异步 I/O。这意味着如果您有 15,000 个项目，所有 15,000 个 upsert 等都将尝试同时写入。您应该尝试使用 async.eachLimit 或类似的方法。

标签： node.js ubuntu meteor ubuntu-12.04 digital-ocean

【解决方案1】：

我是 VPS 新手，我尝试做的第一件事就是运行我的脚本。问题是我用 node 和 pm2 启动了同一台服务器几次。

解决方案

运行pm2 kill 以终止进程管理器运行的所有进程
运行killall node - 如果有剩余则终止所有正在运行的进程
运行pm2 start <your_server>.js - 再次运行您的服务器

【讨论】：

【解决方案2】：

我遇到了类似的问题。我不需要 Oplog，建议我添加流星包“disable-oplog”。所以我做到了，CPU使用率降低了很多。如果您没有真正利用 Oplog，最好禁用它，所以请 meteor add disable-oplog 看看会发生什么。

我希望这会有所帮助。

【讨论】：

【解决方案3】：

-你在使用 Meteor-up 吗？我也用纽约 2

在我的本地环境中，带有 ubuntu 服务器的虚拟机只有 512 Mb 和 1 个核心。

我在 DigitalOcean 4 Gb RAM、2 核 VPS + Meteorup（当然还有我的应用程序）上遇到了同样的问题。

LOCAL ENVIROMENT on virtualbox - 1 CORE - 512 MB - New York 2 - ubuntu 14.04 x86.
-------------------------------------
>Meteor.js = 0.8.0,
>Node = 0.10.26,
>MongoDB shell version = 2.4.10,

>%CPU = 20.8 avg,
>%MEM = 27.4 avg

DIGITALOCEAN 4 GB RAM - 2 CPUS - ubuntu 14.04 x64.
-------------------------------------
>Meteor.js = 0.8.0,
>Node = 0.10.26,
>MongoDB shell version = 2.4.10,

>%CPU = 101.8 avg,
>%MEM = 27.4 avg

> PID meteoru+  20   0 1644244 796692   6228 R **102.2** **32.7**  84:47.08 node

另外，我的应用程序与您的应用程序类似。我使用来自大气的CFS 包和 node-csv 来读取我上传的 CSV。上传效果很好，node-csv 效果也很好....但我可以确认你是否是问题所在，它似乎是在 DigitalOcean 上运行的节点。我的 MongoDB 也很好用...

【讨论】：

使用mup。一切都是模糊的，但这就是我为控制它所做的。 1.卸载节点并重新运行mup setup - 这是使cpu和mem恢复正常的唯一方法。 2. 将我的应用程序分成两个独立的应用程序，位于两个不同的服务器上 - 1 个用于面向用户，2 个用于执行循环 http 请求。 3. 优化了我的订阅和方法调用。这就是我现在所处的位置。您还可以查看最近记录的 Meteor 问题 - github.com/meteor/meteor/issues/2073 - 该解决方案在我的情况下没有帮助，但那是服务器卡住的时候。
我不明白你是如何卸载 node 并能够使用 MUP，如果 mup 是来自 NPM 的 pckg，你能解释一下吗？
我尝试使用旧版本的 NodeJs、交换磁盘分区等......什么都没有。我正在使用 MongoHQ。
你试过用init 6重启服务器吗？如果这有助于使 cpu/mem 恢复正常，那么您无需重新运行 mup 设置。重新启动对我没有帮助。如果它对您没有帮助，您可以登录服务器并删除节点，或者只是重命名节点目录并重新运行 mup setup。但我认为，如果您尝试过各种节点版本，那么您已经做了类似的事情。如果是这种情况，那么我将开始寻求优化您的代码。请记住，我仍然在这中间，所以我也在试图弄清楚:)
是的，但是...对我不起作用（init 6）并打印：[localhost] what(): [localhost] std::bad_alloc[localhost]