VggNet - 爱码网

VggNet是由牛津大学视觉几何组(Visual Geometry Group，VGG)的Karen Simonyan和Andrew Zisserman提出来的，VggNet在ILSVRC-2014中获得了定位任务的第一名和分类任务的第二名。

下面一起来看一下VggNet的论文《Very Deep Convolutional Networks for Large-Scale Image Recognition》。先直接给出网络设置

VggNet

这篇文章个人觉得最大的贡献就是用更小的卷积核实现更深的网络。

更小的卷积核的叠加可以实现大卷积核的感受野(receptive field)(两个3x3等价于1个5x5,3个3x3等价于一个7x7

同时减少了参数数量，比如说将3个3x3堆叠起来，如果输入和输出都有C个通道，则参数为

VggNet

而一个7x7的参数为

VggNet

可以看出参数有明显的减少

还有一个好处是由于层之间的ReLU函数，3个卷积层的堆叠的非线性效果也比1个卷积层的非线性效果要好

从网络设置可以看出，论文探讨了A-E 6种网络结构的性能，结果如下

VggNet

即E结构获得了最好的性能

VggNet

同时，作者认为在更大的数据集上可能更深的网络结构会有更好的表现，即是说不同深度模型的表现与数据集的大小有关。

其他的论文提到的

图像预处理，包括random crop, horizon flip，RGB normalize

正则化，L2正则化，dropout

参数初始化，权重 w 从 N(0，0.01) 中采样，偏差 bias 初始化为0

单一尺度与多尺度训练

这里就不详细说了