1、Alexnet
(2012年ImageNet大规模图像识别挑战赛冠军)
conv1:
卷积
- 输入维度:224x224x3经过扩展后变成227x227x3
- 卷积核维度:11x11x3x96,步长4,无全0填冲
- 经过卷积后,图像的尺寸为;输出图像维度为:55x55x96
- 结果被分到2组,即2个55x55x48(总体为55x55x96)
- 经过relu**函数,送到最大池化层
池化
- 内核维度:3x3,步长2
- 输出结果:2个27x27x48;尺寸:
- 合并之后,图像的维度为27x27x96
最后进行了局部响应归一化(LRN)
conv2
卷积
- 输入维度:2个27x27x48(总体为27x27x96)
- 卷积核维度:5x5x96x256,步长1,全0填冲,上下左右各填冲2个像素
- 输出结果:2个27x27x128;尺寸:
- 经过relu**函数送到最大池化层
池化
- 内核维度:3x3,步长2
- 输出结果:2个13x13x128;尺寸:
- 合并之后,图像的维度为13x13x256
最后进行了局部响应归一化(LRN)
conv3
卷积
- 输入维度:13x13x256
- 卷积核维度:3x3x256x384,步长1,全0填冲,上下左右各填充1个像素
- 输出结果:13x13x384;尺寸:
通过relu**,最后进行了局部响应归一化(LRN)
conv4
卷积
- 输入维度:13x13x384
- 卷积核维度:3x3x384x384,步长1,全0填冲,上下左右各填充1个像素
- 输出结果:13x13x384;尺寸:
通过relu**,最后进行了局部响应归一化(LRN)
conv5
卷积
- 输入维度:2个13x13x192
- 卷积核维度:2个3x3x192x128,步长1,全0填冲,上下左右各填充1个像素
- 输出结果:2个13x13x128;尺寸:
- 经过relu**函数送到最大池化层
池化
- 内核维度:3x3,步长2
- 输出结果:2个6x6x128;尺寸:
- 合并之后,图像的维度为6x6x256
最后进行了局部响应归一化
全连接层1(FC1)
之后的网络可以看作是简单的前馈神经网络
- 输入维度:6x6x256;为了进行前向传播,必须将矩阵拉成一维向量,即转化为:1x(6x6x256)=1x9216
- conv5与FC1层之间的权重:9216x4096;偏置维度:1x4096
- 结果:1x4096
- relu**函数,dropout处理,概率为0.5
全连接层2(FC2)
- 输入维度:1x4096
- FC1与FC2之间的权重:4096x4096;偏置维度:1x4096
- 结果:1x4096
- relu**函数,dropout处理,概率为0.5
全连接层3(FC3)
- 输入维度:1x4096
- FC1与FC2之间的权重:4096x1000;偏置维度:1x1000
- 结果:1x1000
- softmax**函数,得到的1000维向量代表了1000种分类的概率
2、Inception net(googlenet)
(2014年ImageNet大规模图像识别挑战赛冠军)
inception模块
inception模块构造部分代码
3、VGGnet
(2014年ImageNet大规模图像识别挑战赛亚军)
小卷积核3x3,两个3x3相当于一个5x5,可以减少参数量
vgg_block:多个卷积层+1个最大池化层
vgg_stack:多个vgg_block
4、Resnet
(2015年ImageNet大规模图像识别挑战赛冠军,首次在1000类图像识别任务中超越人类;2016年CVPR最佳论文)
使得浅层网络的参数可以训练更新
bottleneck结构:参数左右大体相同,增加了网络深度
resnet不同层数时的网络配置:
5、Densenet
(2017年CVPR最佳论文)
参考文献:
http://blog.csdn.net/qq_30091945
https://blog.csdn.net/u013841196/article/details/80713314