【问题标题】:google colab setting a '^C' in the proccessgoogle colab 在此过程中设置“^C”
【发布时间】:2019-03-27 00:30:01
【问题描述】:

我正在运行我从这个tutorial 得到的这个code 我正在尝试运行 tensorflow 对象检测 api,所有代码运行良好,如果你运行所有调用,所有单元格运行良好,最后,我的图像被分类。

Buuut 有 1 个不能正常工作的单元格,它可以工作,但不喜欢它必须工作。

我什么时候用 !python legacy/train.py --logtostderr --train_dir=training/ --pipeline_config_path=training/ssd_mobilenet_v1_pets.config 训练我的模型 它启动 tensorflow 并开始训练,但它只运行 3 步、4 步,有时 20、21、23 步,最后,google colab 在此过程中设置了 ^C

我永远无法完成培训,因为 google colab 关闭了我的流程,有人知道发生了什么?

我已经尝试使用 GPU 和 TPU 实例。

[...]
INFO:tensorflow:Restoring parameters from training/model.ckpt-0
I1022 20:41:48.368024 139794549495680 tf_logging.py:115] Restoring parameters from training/model.ckpt-0
INFO:tensorflow:Running local_init_op.
I1022 20:41:52.779153 139794549495680 tf_logging.py:115] Running local_init_op.
INFO:tensorflow:Done running local_init_op.
I1022 20:41:52.997912 139794549495680 tf_logging.py:115] Done running local_init_op.
INFO:tensorflow:Starting Session.
I1022 20:41:59.072830 139794549495680 tf_logging.py:115] Starting Session.
INFO:tensorflow:Saving checkpoint to path training/model.ckpt
I1022 20:41:59.245162 139793493063424 tf_logging.py:115] Saving checkpoint to path training/model.ckpt
INFO:tensorflow:Starting Queues.
I1022 20:41:59.252097 139794549495680 tf_logging.py:115] Starting Queues.
INFO:tensorflow:global_step/sec: 0
I1022 20:42:10.151180 139793484670720 tf_logging.py:159] global_step/sec: 0
INFO:tensorflow:Recording summary at step 0.
I1022 20:42:16.119055 139793476278016 tf_logging.py:115] Recording summary at step 0.
INFO:tensorflow:global step 1: loss = 14.0911 (28.770 sec/step)
I1022 20:42:28.496783 139794549495680 tf_logging.py:115] global step 1: loss = 14.0911 (28.770 sec/step)
INFO:tensorflow:global step 2: loss = 12.4958 (10.529 sec/step)
I1022 20:42:39.334129 139794549495680 tf_logging.py:115] global step 2: loss = 12.4958 (10.529 sec/step)
INFO:tensorflow:global step 3: loss = 11.6073 (8.267 sec/step)
I1022 20:42:47.601801 139794549495680 tf_logging.py:115] global step 3: loss = 11.6073 (8.267 sec/step)
^C

【问题讨论】:

  • 听起来好像内存不足。如果您对数据进行采样或以较小的批量运行,事情会进展吗?你能分享一个重现问题的笔记本吗?
  • 我正在使用浴=24 buuut 我只有 50 张图像要训练(我只是在测试它,它不会用于生产)
  • 代码链接原题404s。

标签: python tensorflow object-detection google-colaboratory object-detection-api


【解决方案1】:

我同意 Bob Smith 关于“内存不足”问题的观点。您可以通过Haohui 的一个简单技巧将内存从 12GB 升级到 25GB 来应对它。在 Colab 中运行以下代码:

a = []
while(1):
    a.append('1')

这将使会话崩溃,您将在屏幕左下方收到一条消息“您想切换到高 RAM 运行时...”。

【讨论】:

  • 他们现在似乎已经修复了这个“黑客”,因此不可能以这种方式增加 RAM
  • 这个解决方案已经失效了,他们可能已经删除了这个功能
【解决方案2】:

您也可以尝试减少 .config 文件中的“batch_size”。

【讨论】:

  • 为我工作。我的 batch_size 是 24 然后我改为 12 谢谢 :)
【解决方案3】:

您可以使用以下 GitHub repo 在 Google Colab 上训练 TensorFlow 对象检测模型。它有一个自述文件、一个 .ipynb 文件、一个模型配置文件和一个示例 label_map 文件。如果您遇到任何问题,请告诉我。希望这会有所帮助

【讨论】:

    【解决方案4】:

    我知道这很旧,但我偶然发现了同样的问题,但找不到解决方案。 这发生在我身上是因为我忘记在

    下启用 GPU

    运行时->更改运行时类型

    ,我的代码使用 gpu(使用 pytorch cuda)。

    更多信息:https://medium.com/deep-learning-turkey/google-colab-free-gpu-tutorial-e113627b9f5d Enable GPU in Colab

    【讨论】:

      猜你喜欢
      • 2020-08-20
      • 2019-04-17
      • 2022-11-03
      • 2019-05-16
      • 2021-06-12
      • 1970-01-01
      • 1970-01-01
      • 2019-09-07
      • 2022-09-27
      相关资源
      最近更新 更多