VGGNet网络结构学习

前言

VGG是Oxford的Visual Geometry Group的组提出的（大家应该能看出VGG名字的由来了）。该网络是在ILSVRC 2014上的相关工作，主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG有两种结构，分别是VGG16和VGG19，两者并没有本质上的区别，只是网络深度不一样。

VGGNet网络

深度神经网络一般由卷积部分和全连接部分构成。卷积部分一般包含卷积（可以有多个不同尺寸的核级联组成）、池化、Dropout等，其中Dropout层必须放在池化之后。全连接部分一般最多包含2到3个全连接，最后通过Softmax得到分类结果，由于全连接层参数量大，现在倾向于尽可能的少用或者不用全连接层。神经网络的发展趋势是考虑使用更小的过滤器，如11,33等；网络的深度更深（2012年AlenNet8层，2014年VGG19层、GoogLeNet22层，2015年ResNet152层）；减少全连接层的使用，以及越来越复杂的网络结构，如GoogLeNet引入的Inception模块结构。

VGGNet获得2014年ImageNet亚军，VGG是牛津大学 Visual Geometry Group（视觉几何组）的缩写，以研究机构命名。

VGG在AlexNet基础上做了改进，整个网络都使用了同样大小的33卷积核尺寸和22最大池化尺寸，网络结果简洁。一系列VGG模型的结构图：

VGG原理
VGG16相比AlexNet网络而言改进是采用几个连续的33的卷积核代替了AlexNet网络中的较大的卷积核（1111， 77， 55）。对于给定的感受野（与输出相关的输入图片的局部大小），采用堆积的小卷积是由于采用较大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小。

简单来说，VGG使用了3个33的卷积核代替了77的卷积核，使用了2个33 的卷积核代替了55的卷积核，这样的主要目的是在保证具有相同的感受野的条件下，提升了网络的深度，在一定程度上提升了网络的效果。

比如，3个步长为1的3x3卷积核的一层层叠加作用可看成一个大小为7的感受野（其实就表示3个3x3连续卷积相当于一个7x7卷积），其参数总量为 3x(9xC^2) ，如果直接使用7x7卷积核，其参数总量为 49xC^2 ，这里 C 指的是输入和输出的通道数。很明显，27xC^2小于49xC2，即减少了参数；而且3x3卷积核有利于更好地保持图像性质。

这里解释一下为什么使用2个33的卷积核来代替55 的卷积核？

5x5卷积看做一个小的全连接网络在5x5区域滑动，我们可以先用一个3x3的卷积滤波器卷积，然后再用一个全连接层连接这个3x3卷积输出，这个全连接层我们也可以看做一个3x3卷积层。这样我们就可以用两个3x3卷积级联（叠加）起来代替一个 5x5卷积。

具体如下图所示：

VGGNet网络结构学习

至于为什么使用3个3x3卷积核可以来代替7*7卷积核，推导过程与上述类似，大家可以自行绘图理解。

VGG网络结构

下面是VGG网络结构（vgg16和vgg19）：

VGGNet网络结构学习

VGG16包含了16个隐藏层（13个卷积层和3个全连接层），如上图中的D列所示
VGG19包含了19个隐藏层（16个卷积层和3个全连接层），如上图中的E列所示

VGG的网络结构非常一直，从头到尾采用的都是33的卷积核和22的max pooling。

VGGNet网络结构学习

VGG16包含16层，VGG19包含19层。一系列的VGG在最后三层的全连接层上完全一样，整体结构上都包含5组卷积层，卷积层之后跟一个MaxPool。所不同的是5组卷积层中包含的级联的卷积层越来越多。

AlexNet中每层卷积层中只包含一个卷积，卷积核的大小是77。在VGGNet中每层卷积层中包含2~4个卷积操作，卷积核的大小是33，卷积步长是1，池化核是2*2，步长为2。VGGNet最明显的改进就是降低了卷积核的尺寸，增加了卷积的层数。

使用多个较小卷积核的卷积层代替一个卷积核较大的卷积层，一方面可以减少参数，另一方面作者认为相当于进行了更多的非线性映射，增加了网络的拟合表达能力。

VGGNet的图片预处理

VGG的输入224*224的RGB图像，预处理就是每一个像素减去了均值。

VGG的多尺度训练

VGGNet使用了Multi-Scale的方法做数据增强，将原始图像缩放到不同尺寸S，然后再随机裁切224′224的图片，这样能增加很多数据量，对于防止模型过拟合有很不错的效果。实践中，作者令S在[256,512]这个区间内取值，使用Multi-Scale获得多个版本的数据，并将多个版本的数据合在一起进行训练。VGG作者在尝试使用LRN之后认为LRN的作用不大，还导致了内存消耗和计算时间增加。

虽然网络层数加深，但VGG在训练的过程中比AlexNet收敛的要快一些，主要因为：
（1）使用小卷积核和更深的网络进行的正则化；
（2）在特定的层使用了预训练得到的数据进行参数的初始化。对于较浅的网络，如网络A，可以直接使用随机数进行随机初始化，而对于比较深的网络，则使用前面已经训练好的较浅的网络中的参数值对其前几层的卷积层和最后的全连接层进行初始化。

VGG优缺点

VGG优点

1、VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸（3x3）和最大池化尺寸（2x2）。
2、几个小滤波器（3x3）卷积层的组合比一个大滤波器（5x5或7x7）卷积层好：
3、验证了通过不断加深网络结构可以提升性能。

VGG缺点

·VGG耗费更多计算资源，并且使用了更多的参数（这里不是3x3卷积的锅），导致更多的内存占用（140M）。其中绝大多数的参数都是来自于第一个全连接层。VGG可是有3个全连接层啊！

PS：有的文章称：发现这些全连接层即使被去除，对于性能也没有什么影响，这样就显著降低了参数数量。

注：很多pretrained的方法就是使用VGG的model（主要是16和19），VGG相对其他的方法，参数空间很大，最终的model有500多m，AlexNet只有200m，GoogLeNet更少，所以train一个vgg模型通常要花费更长的时间，所幸有公开的pretrained model让我们很方便的使用。

VGGNet改进点总结

一、使用了更小的33卷积核，和更深的网络。两个33卷积核的堆叠相对于55卷积核的视野，三个33卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数（3个堆叠的33结构只有77结构参数数量的(333)/(77)=55%）；另一方面拥有更多的非线性变换，增加了CNN对特征的学习能力。

二、在VGGNet的卷积结构中，引入1*1的卷积核，在不影响输入输出维度的情况下，引入非线性变换，增加网络的表达能力，降低计算量。

三、训练时，先训练级别简单（层数较浅）的VGGNet的A级网络，然后使用A网络的权重来初始化后面的复杂模型，加快训练的收敛速度。

四、采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量，防止模型过拟合，提升预测准确率

注：写的不好的地方还请大家见谅，若有错误，还大佬们指出。