【发布时间】:2018-06-11 23:53:38
【问题描述】:
我使用 mobilenet 模型来训练我的图像。它工作得很好。为了提高准确性,我尝试使用 faster_rcnn_resnet101_coco 模型来复制相同的步骤。我使用的所有步骤都是一样的。当我开始培训课程时,它开始运行了大约 800 步。此时的训练损失约为 0.5,这似乎好得令人难以置信。它停在这一步,并抛出以下错误:
replica worker 1 以非零状态 1 退出。终止 原因:错误。 Traceback(最近一次通话最后一次):文件 “/usr/lib/python2.7/runpy.py”,第 174 行,在 _run_module_as_main "main", fname, loader, pkg_name) 文件 “/usr/lib/python2.7/runpy.py”,第 72 行,在 _run_code 执行代码中 run_globals 文件 "/root/.local/lib/python2.7/site-packages/object_detection/train.py", 第 163 行,在 tf.app.run() 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/platform/app.py", 第 48 行,运行中 _sys.exit(main(_sys.argv[:1] + flags_passthrough)) 文件 "/root/.local/lib/python2.7/site-packages/object_detection/train.py", 第 159 行,在主 worker_job_name、is_chief、FLAGS.train_dir) 文件中 "/root/.local/lib/python2.7/site-packages/object_detection/trainer.py", 第 332 行,在 train saver=saver) 文件中 “/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”, 第 763 行,在火车 sess、train_op、global_step、train_step_kwargs 中) 文件 “/usr/local/lib/python2.7/dist-packages/tensorflow/contrib/slim/python/slim/learning.py”, 第 487 行,在 train_step run_metadata=run_metadata) 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 889 行,在运行 run_metadata_ptr) 文件 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1120 行,在 _run feed_dict_tensor、options、run_metadata) 文件中 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1317 行,在 _do_run 选项中,run_metadata) 文件 "/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py", 第 1336 行,在 _do_call raise type(e)(node_def, op, message) UnavailableError: Endpoint read failed 了解更多关于为什么你的 作业退出请检查日志: https://console.cloud.google.com/logs/viewer?project=341450659208&resource=ml_job%2Fjob_id%2Fobject_detection_188003&advancedFilter=resource.type%3D%22ml_job%22%0Aresource.labels.job_id%3D%22object_detection_188003%22
知道问题可能是什么吗?非常感谢任何帮助。
【问题讨论】:
标签: python tensorflow google-cloud-platform google-cloud-ml