【发布时间】:2017-03-12 12:37:50
【问题描述】:
我正在 AWS EC2 实例中的图像识别数据集上运行 ML 算法。该算法需要很长时间(>6)小时才能运行,我不确定如何一直保持实例运行。
我尝试了几次启动代码,发现连接在一个小时左右后丢失。我怎样才能防止这种情况发生。
为了提供更多细节,我正在从 jupyter notebook 运行卷积神经网络。我使用 AWS 的端口转发从本地机器访问这个 jupyter notebook https://coderwall.com/p/ohk6cg/remote-access-to-ipython-notebooks-via-ssh#comment_28219
提前致谢
【问题讨论】:
-
您正在运行什么大小的 EC2 实例?是否有任何错误记录到日志文件以解释实例崩溃/挂起的原因。如果您在微层上运行,则计算对于硬件来说可能太大了。 (只是建议,因为您在配置方面并没有真正提供太多)
-
谢谢亚历克斯。我使用的是具有 16 GB RAM 的高级 16 GB EC2。这不是任何公司实例,而是我在个人帐户上创建的实例
-
我看到它在我的立场类型中被称为 m4.xlarge
标签: amazon-web-services amazon-ec2