【发布时间】:2021-02-12 23:34:08
【问题描述】:
大家好,我正在尝试使用 Tensorflow 的对象检测 API。我目前正在使用
TF 2.2.0 和 TF-GPU 2.2.0
RTX2080 cudatoolkit v10.1 CUDNN v7.6.5
我正在尝试在我自己的数据集上训练模型 ssd_mobilenet_v1_fpn_640x640_coco17_tpu-8。
使用model_main_tf2.py 时,训练有效,但不知何故,它总是在 400 步后崩溃。即使我添加了这一行with tf.device(tf.DeviceSpec(device_type="GPU", device_index=0)):,如果我打开任务管理器查看 GPU 使用情况,它总是显示 5% 或更少,CPU 大约 34%
崩溃后我总是得到同样的错误:
INFO:tensorflow:Step 500 per-step time 0.531s loss=0.864
I0129 00:07:36.263110 12688 model_lib_v2.py:651] Step 500 per-step time 0.531s loss=0.864
2021-01-29 00:07:58.237349: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_UNKNOWN: unknown error
2021-01-29 00:07:58.258278: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
Fatal Python error: Aborted
知道为什么会发生吗?
【问题讨论】:
标签: tensorflow object-detection-api