VggNet是由牛津大学视觉几何组(Visual Geometry Group,VGG)的Karen Simonyan和Andrew Zisserman提出来的,VggNet在ILSVRC-2014中获得了定位任务的第一名和分类任务的第二名。

下面一起来看一下VggNet的论文《Very Deep Convolutional Networks for Large-Scale Image Recognition》。先直接给出网络设置

VggNet

这篇文章个人觉得最大的贡献就是用更小的卷积核实现更深的网络。

更小的卷积核的叠加可以实现大卷积核的感受野(receptive field)(两个3x3等价于1个5x5,3个3x3等价于一个7x7

同时减少了参数数量,比如说将3个3x3堆叠起来,如果输入和输出都有C个通道,则参数为

VggNet

而一个7x7的参数为

VggNet

可以看出参数有明显的减少

还有一个好处是由于层之间的ReLU函数,3个卷积层的堆叠的非线性效果也比1个卷积层的非线性效果要好

从网络设置可以看出,论文探讨了A-E 6种网络结构的性能,结果如下

VggNet

即E结构获得了最好的性能

VggNet

同时,作者认为在更大的数据集上可能更深的网络结构会有更好的表现,即是说不同深度模型的表现与数据集的大小有关。

其他的论文提到的

图像预处理,包括random crop, horizon flip,RGB normalize

正则化,L2正则化,dropout

参数初始化,权重 w 从 N(0,0.01) 中采样,偏差 bias 初始化为0

单一尺度与多尺度训练

这里就不详细说了

相关文章:

  • 2021-10-20
  • 2021-04-01
  • 2021-08-01
  • 2021-08-19
  • 2021-08-15
  • 2021-12-28
  • 2021-04-17
  • 2021-04-06