【问题标题】:Browser drops connection during model training模型训练期间浏览器断开连接
【发布时间】:2020-01-22 18:25:51
【问题描述】:

我目前正在尝试进行相当长的超参数网格搜索(4-5 小时),但我一直在 gcp 笔记本实例上遇到 Jupyter Lab 问题(或尚未解决问题)。与笔记本的浏览器连接不断下降,而训练过程继续正常。当它完成训练过程时,由于浏览器与笔记本的连接已经断开,因此无处可写输出。

即使我的笔记本电脑关闭/关闭,我如何才能保持该连接有效或确保将输出写入笔记本?

【问题讨论】:

  • 您是否尝试过将网格搜索的输出写入一个简单的 .txt 文件?这样,当您连接回笔记本时,您就会在其中获得结果
  • @Joaquim 这肯定会起作用,但我正在寻找一种方法来确保模型训练的输出最终会出现在我的笔记本中。

标签: google-cloud-platform jupyter-notebook jupyter-lab gcp-ai-platform-notebook


【解决方案1】:

有多个问题可能会影响您的笔记本。它可能是 GCP 问题、网络问题……因此,您需要提供更多信息来诊断正在发生的事情。我建议您通过 GCP 或 Jupyter 支持开票以进行更彻底的调查,因为它可能难以诊断,并且他们将有更多工具来做这件事。此外,目前@Joaquim 的建议似乎是一个很好的解决方法。无论如何,我已经收集了几个故障排除步骤,您可以按照这些步骤来查找影响您的问题是否是经常性问题之一:

  1. 根据this Jupyter Notebook document,有一个“shutdown_no_activity_timeout”选项。默认值为“0”,表示禁用此自动关机。该选项可能会在“jupyter_notebook_config.py”文件中被覆盖。您可以按照以下步骤进行确认:

    • AI Platform Notebooks page 上单击运行笔记本的实例名称。
    • 点击“SSH”远程访问
    • 在 shell 上运行此命令以确认覆盖的存在: ls /home/*/.jupyter/jupyter_notebook_config.py
    • 运行此命令以确认 shutdown_no_activity_timeout 选项是否正在执行覆盖: cat /home/*/.jupyter/jupyter_notebook_config.py | grep shutdown_no_activity_timeout
    • 如果将选项设置为不同的值,请将其切换为“0”,然后重置 this page 上的笔记本实例以应用更改。
  2. 根据this other document,它可能在代理后面时无法连接。你可以试试disable your browser’s proxy settings

  3. 您也可以尝试更改 Jupyter 端口。在this Jupyter issue,客户坚持说他的断线问题在更换后就消失了。如果您使用的是 Chrome 浏览器,能否请您打开检查面板 (Ctrl+Shift+I) 并将您的连接症状与this image 进行比较?如果遇到类似错误,可以尝试更改端口(c.NotebookApp.port)。

【讨论】:

  • 感谢 Javier 的广泛回答,一旦我有空闲时间,肯定会尽快修改它。我想到的另一种方法是在 gcp 实例上安装screen,启动一个新会话并通过jupyter nbconvert --to notebook --inplace --execute /home/path/to/nb.ipynb 执行笔记本。这样,即使我关闭了我的个人笔记本电脑并允许使用screen -r 恢复终端会话,也应该保留终端会话。
猜你喜欢
  • 2013-02-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-02-02
  • 2019-01-09
  • 2020-01-24
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多