【问题标题】:AWS instance hanging up when running huge computationsAWS 实例在运行大量计算时挂起
【发布时间】:2017-03-12 12:37:50
【问题描述】:

我正在 AWS EC2 实例中的图像识别数据集上运行 ML 算法。该算法需要很长时间(>6)小时才能运行,我不确定如何一直保持实例运行。

我尝试了几次启动代码,发现连接在一个小时左右后丢失。我怎样才能防止这种情况发生。

为了提供更多细节,我正在从 jupyter notebook 运行卷积神经网络。我使用 AWS 的端口转发从本地机器访问这个 jupyter notebook https://coderwall.com/p/ohk6cg/remote-access-to-ipython-notebooks-via-ssh#comment_28219

提前致谢

【问题讨论】:

  • 您正在运行什么大小的 EC2 实例?是否有任何错误记录到日志文件以解释实例崩溃/挂起的原因。如果您在微层上运行,则计算对于硬件来说可能太大了。 (只是建议,因为您在配置方面并没有真正提供太多)
  • 谢谢亚历克斯。我使用的是具有 16 GB RAM 的高级 16 GB EC2。这不是任何公司实例,而是我在个人帐户上创建的实例
  • 我看到它在我的立场类型中被称为 m4.xlarge

标签: amazon-web-services amazon-ec2


【解决方案1】:

尝试在屏幕中运行您的命令(或代码)。请参阅https://www.rackaid.com/blog/linux-screen-tutorial-and-how-to/。这可以确保即使 ssh 连接断开,您的命令也会在后台继续运行。再次 ssh 并打开屏幕。

重要命令:

screen -S <name> : creates the screen 
screen -ls : list all screens
screen -r <name> : restore the screen

【讨论】:

  • 我可以尝试一下,但我注意到的一个常见趋势是,当我的 CPU 利用率飙升至 90% 以上时,就会发生这种情况。当我用完整的数据集运行我的模型时,我看到 cpu util > 90% 一致。这可能是一个原因。我问是因为当我在本地运行相同的代码时,会发生同样的事情,但至少系统不会关闭
猜你喜欢
  • 2015-10-13
  • 2013-01-05
  • 2014-08-07
  • 2021-05-30
  • 2020-04-04
  • 1970-01-01
  • 2014-05-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多