- 下一步改进faster rcnn的基本思路
- 参考https://blog.csdn.net/Z5337209/article/details/72838049
- 将Faster-RCNN中的VGG16替换成ResNet可以提高performance,不仅是detection,在segmentation,video analysis,recognition等其他领域,使用更深的ResNet都可以得到稳定的提升。在速度方面,ResNet比VGG16更慢,同时需要训练的次数也更多,同时内存占用量也远远大于VGG16,大概四五倍,没有12G的GPU就不要想用了。
VISIBLE_DEVICES=0 python trainval_net.py --dataset pascal_voc --net vgg16 --epochs 3 --bs 1 --nw 1 --cuda >output.log 2>&1 &
19.4.17
- 看了下LSVH的数据标注label文件的txt的格式,和KITTI不一样的是,用数字表示类别,并且一个txt里面有很多个标注,应该是因为是视频很多帧的原因
- 放弃训练LSVH,转去看怎么修改faster rcnn让它更好识别小尺度物体了。
- 之后可以参考https://blog.csdn.net/zcy0xy/article/details/79614862 ,用工具自己标定、制作VOC2007格式数据集
4.17下午
- faster rcnn基本结构
看了一篇中文的南京大学改进faster rcnn的论文,有了点改进faster rcnn的思路,以及一篇哈工大的硕士论文,思路主要是基于faster rcnn改进以下几点:
- 类似SNIP不是一个RPN,考虑从不同层的不同特征图,用不同的RPN网络提取(这里可能可以考虑限制尺度范围,参考SNIP)
- 考虑特征融合,而不是只用一个顶层特征去输入到RPN
- 进一步考虑训测数据集的尺度匹配等方面的trick,参考SNIP的结论和南大论文
- 主要数据集先用KITTI试着,考虑对数据集进行上下采样来研究,参考南大论文
2019.4.19
- 可以后期增加anchor数量