浏览器在模型训练期间断开连接

Browser drops connection during model training

我目前正在尝试进行相当长的超参数网格搜索(4-5 小时),并且我在 gcp 笔记本实例上一直遇到 Jupyter Lab 的问题(或者还没有弄清楚)。与笔记本电脑的浏览器连接不断下降,而训练过程继续进行得很好。当它完成训练过程时,由于与笔记本的浏览器连接已经断开,因此无处可写输出。

即使我的笔记本电脑 off/gets 关闭,我如何保持该连接或确保输出写入笔记本电脑?

有多个问题可能会影响您的笔记本电脑。这可能是 GCP 问题、网络问题……因此,您需要提供更多信息才能诊断发生了什么。我建议您在 GCP 或 Jupyter 支持下开具票证以进行更彻底的调查,因为这可能很难诊断,而且他们将有更多工具来进行诊断。此外,@Joaquim 建议的内容目前似乎是一个很好的解决方法。无论如何,我已经收集了几个故障排除步骤,您可以按照这些步骤来确定是否是影响您的反复出现的问题之一:

  1. 根据this Jupyter Notebook document,有一个‘shutdown_no_activity_timeout’选项。默认值为“0”,禁用此自动关闭。该选项可能会在“jupyter_notebook_config.py”文件中被覆盖。您可以按照以下步骤进行确认:

    • AI Platform Notebooks page 上单击 运行 您的笔记本所在的实例名称。
    • 点击“SSH”远程访问
    • 运行 在 shell 上确认覆盖的存在: ls /home/*/.jupyter/jupyter_notebook_config.py
    • 运行 此命令用于确认 shutdown_no_activity_timeout 选项是否正在执行覆盖: cat /home/*/.jupyter/jupyter_notebook_config.py | grep shutdown_no_activity_timeout
    • 如果选项设置为不同的值,请将选项切换为“0”,并在 this page 上重置笔记本实例以应用更改。
  2. 根据this other document, it might fail to connect when behind a proxy. You can try to disable your browser’s proxy settings.

  3. 您也可以尝试更改 Jupyter 端口。在 this Jupyter issue, the customer insists that his disconnection problem was gone after changing it. If you are using Chrome browser, could you please open the Inspect panel (Ctrl+Shift+I) and compare your connection symptoms with this image 上?如果您遇到类似的错误,您可以尝试更改端口 (c.NotebookApp.port)。