【问题标题】:Google Colaboratory disconnects after 10-15 minutesGoogle Colaboratory 在 10-15 分钟后断开连接
【发布时间】:2018-09-11 16:21:55
【问题描述】:

我正在尝试在 Google colab 上训练我的深度学习模型,他们提供免费的 K80 GPU。我了解到它一次可以使用 12 小时,然后您必须重新连接到它。但是我的连接在 10-15 分钟后丢失,我无法重新连接(它停留在初始化中)。这里有什么问题?

【问题讨论】:

  • 这似乎是一个错误,很多人都有同样的问题。重新启动内核可以修复它。
  • 我正在使用我的大学 WiFi。他们有一个门户,您需要通过该门户登录才能使用数据,这可能是个问题吗?
  • 另外你如何在colab上重启内核?
  • 如果您的连接中断,那可能是个问题。重启内核:Runtime > Restart runtime.
  • 我也一直面临这个问题。我必须在 colab 选项卡上保持活跃状态​​才能运行 10-15 分钟以上。

标签: deep-learning jupyter-notebook google-colaboratory


【解决方案1】:

我已经能够运行视觉训练模型,但它会在一夜之间断开连接并停止。它运行数小时,可能是 12 小时。我还使用 CPU 训练了模型并得到了相同的结果,尽管没有完成那么多的 epoch。我已经搜索过CPU的时间限制没有成功。训练程序使用 tensorflow.saver 在训练期间使用检查点,以便在检查点中断时从检查点重新开始训练。

【讨论】:

  • 我正在使用 GPU。您的实例在 GPU 上保持连接多长时间?另外,您使用的是什么环境(浏览器、操作系统、python 版本等、家庭 Wifi/大学 wifi 等)
【解决方案2】:

这在我的大学被证明是一个网络问题。我的大学有一个登录门户来访问互联网。绕过它解决了这个问题。

【讨论】:

    猜你喜欢
    • 2021-08-10
    • 2015-08-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-09-20
    • 1970-01-01
    • 2018-10-16
    • 2015-05-03
    相关资源
    最近更新 更多