【问题标题】:Darknet training stops in between of the training at random epoch暗网训练在随机时期的训练之间停止
【发布时间】:2022-01-03 07:17:56
【问题描述】:
简介:
system: windows 10
Cuda: 11.5
Darknet version: latest
visual studio: 2019
我是“https://github.com/AlexeyAB/darknet”的训练模型
我开始训练的命令是:
cammand img
训练无缘无故停止或在任何迭代中随机停止错误
output img
我尝试过的:
- 重新启动训练和系统
- 从头开始重建暗网
- 禁用 Windows 安全和实时保护
- 更新窗口
非常感谢任何建议
【问题讨论】:
标签:
python
windows
deep-learning
darknet
【解决方案1】:
我通过查看以下步骤解决了这个问题,此步骤由“https://github.com/AlexeyAB/darknet”建议:
如果您在训练方面遇到问题 - 无检测/Nan avg-loss/低准确度:
- 阅读常见问题解答:https://github.com/AlexeyAB/darknet/wiki/FAQ---frequently-asked-
问题
- 检查命令是否正确
- 数据集是否正确,表示边界框和类索引
- 检查您的数据集 - 使用标志
-show_imgs 即./darknet detector train ... -show_imgs 运行训练并查看aug_...jpg 图像,你看对了吗
真实有界框?
- 检查 cfg 文件是否有正确的值
6。检查
bad.list 和bad_label.list 是否存在错误(如果存在)。
- 阅读自述文件中的
How to train (to detect your custom objects) 和How to improve object detection:
"https://github.com/AlexeyAB/darknet/blob/master/README.md"
我的问题是通过突出显示的第 6 步解决的,在该文件中,我在每个文件中都看到了两个问题:
问题1:“train.txt”包含我自己删除错误的文件
像“0 0 0 0 0”这样的注释
问题 2:我只有 1 个类作为输出预测,但其中一个文本文件包含
类索引 15 所以我删除了 15 并将 0 放置到每个位置并保存
文件。
bad.list 和 bad_label.list 这些文件还会为您提供错误和发生错误的文件名。
提示:请检查bad.list 和bad_label.list,即使您没有显示错误,它也会告诉您隐藏的错误
谢谢
玩得开心
并做出令人惊奇的事情