google colab 在此过程中设置“^C”答案

【问题标题】：google colab setting a '^C' in the proccessgoogle colab 在此过程中设置“^C”
【发布时间】：2019-03-27 00:30:01
【问题描述】：

我正在运行我从这个tutorial 得到的这个code 我正在尝试运行 tensorflow 对象检测 api，所有代码运行良好，如果你运行所有调用，所有单元格运行良好，最后，我的图像被分类。

Buuut 有 1 个不能正常工作的单元格，它可以工作，但不喜欢它必须工作。

我什么时候用 !python legacy/train.py --logtostderr --train_dir=training/ --pipeline_config_path=training/ssd_mobilenet_v1_pets.config 训练我的模型它启动 tensorflow 并开始训练，但它只运行 3 步、4 步，有时 20、21、23 步，最后，google colab 在此过程中设置了 ^C

我永远无法完成培训，因为 google colab 关闭了我的流程，有人知道发生了什么？

我已经尝试使用 GPU 和 TPU 实例。

[...]
INFO:tensorflow:Restoring parameters from training/model.ckpt-0
I1022 20:41:48.368024 139794549495680 tf_logging.py:115] Restoring parameters from training/model.ckpt-0
INFO:tensorflow:Running local_init_op.
I1022 20:41:52.779153 139794549495680 tf_logging.py:115] Running local_init_op.
INFO:tensorflow:Done running local_init_op.
I1022 20:41:52.997912 139794549495680 tf_logging.py:115] Done running local_init_op.
INFO:tensorflow:Starting Session.
I1022 20:41:59.072830 139794549495680 tf_logging.py:115] Starting Session.
INFO:tensorflow:Saving checkpoint to path training/model.ckpt
I1022 20:41:59.245162 139793493063424 tf_logging.py:115] Saving checkpoint to path training/model.ckpt
INFO:tensorflow:Starting Queues.
I1022 20:41:59.252097 139794549495680 tf_logging.py:115] Starting Queues.
INFO:tensorflow:global_step/sec: 0
I1022 20:42:10.151180 139793484670720 tf_logging.py:159] global_step/sec: 0
INFO:tensorflow:Recording summary at step 0.
I1022 20:42:16.119055 139793476278016 tf_logging.py:115] Recording summary at step 0.
INFO:tensorflow:global step 1: loss = 14.0911 (28.770 sec/step)
I1022 20:42:28.496783 139794549495680 tf_logging.py:115] global step 1: loss = 14.0911 (28.770 sec/step)
INFO:tensorflow:global step 2: loss = 12.4958 (10.529 sec/step)
I1022 20:42:39.334129 139794549495680 tf_logging.py:115] global step 2: loss = 12.4958 (10.529 sec/step)
INFO:tensorflow:global step 3: loss = 11.6073 (8.267 sec/step)
I1022 20:42:47.601801 139794549495680 tf_logging.py:115] global step 3: loss = 11.6073 (8.267 sec/step)
^C

【问题讨论】：

听起来好像内存不足。如果您对数据进行采样或以较小的批量运行，事情会进展吗？你能分享一个重现问题的笔记本吗？
我正在使用浴=24 buuut 我只有 50 张图像要训练（我只是在测试它，它不会用于生产）
代码链接原题404s。
drive.google.com/open?id=1gZTADeRnAX4li-yK-BlKk7qMHHLWlJoQ

标签： python tensorflow object-detection google-colaboratory object-detection-api

【解决方案1】：

我同意 Bob Smith 关于“内存不足”问题的观点。您可以通过Haohui 的一个简单技巧将内存从 12GB 升级到 25GB 来应对它。在 Colab 中运行以下代码：

a = []
while(1):
    a.append('1')

这将使会话崩溃，您将在屏幕左下方收到一条消息“您想切换到高 RAM 运行时...”。

【讨论】：

他们现在似乎已经修复了这个“黑客”，因此不可能以这种方式增加 RAM
这个解决方案已经失效了，他们可能已经删除了这个功能

【解决方案2】：

您也可以尝试减少 .config 文件中的“batch_size”。

【讨论】：

为我工作。我的 batch_size 是 24 然后我改为 12 谢谢 :)

【解决方案3】：

您可以使用以下 GitHub repo 在 Google Colab 上训练 TensorFlow 对象检测模型。它有一个自述文件、一个 .ipynb 文件、一个模型配置文件和一个示例 label_map 文件。如果您遇到任何问题，请告诉我。希望这会有所帮助

【讨论】：

【解决方案4】：

我知道这很旧，但我偶然发现了同样的问题，但找不到解决方案。这发生在我身上是因为我忘记在

下启用 GPU

运行时->更改运行时类型

，我的代码使用 gpu（使用 pytorch cuda）。

【讨论】：