《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》-深度卷积神经网络最新进展综述

-Deep Learning Lab, Center for Mathematical Sciences, PIEAS, Nilore, Islamabad 45650, Pakistan

深度CNN架构中存在的内在分类法,分为七个不同类别。分别基于空间利用、深度、多路径、宽度、特征图利用、通道提升和注意力。

1、文章结构:
研一汇报第九周(2019.12.15)

2、CNN基本组件
2.1 卷积层
卷积层由一组卷积核组成,核与图像的一小部分区域相
关,称为感受????野
将图像分成 小块有助于提取局部相关的像素值。这种局部汇总的信息也称为特征图
2.2 池化层
池化操作汇总了感受????附近的相似信息,并在该局部区域内输出主要响应。
将特征图的大小减小到不变的特征集可以调节网络的复杂性,并通过减少过度拟合来帮助提高通用性。

CNN池化公式:最大值,平均值,L2,重????叠,空间金字塔合并等。

2.3 **函数
**功能起决策功能,有助于学习复杂的模式。选择适当的**功能可以加快学习过程。
**函数:sigmoid,tanh,maxout,ReLU和ReLU的变体,例如leaky ReLU,ELU和PReLU用于引入特征的非线性组合
ReLU及其变体优于其他**函数,因为它有助于克服梯度消失问题。

2.4 批次归一化
批次归一化用于解决与特征图中内部协方差平移有关的问题。
内部协方差偏移????随隐藏单位值分布变化,这会降低收敛速度(通过将学习率强制为小值),并对参数初始化要求高。

批次归一化通过将特征图值设为零均值和单位方差来统一其分布。

2.5 Dropout
Dropout引入了网络内的正则化,最终通过以一定概率随机跳过某些单元或连接来最 终提高泛化性。–减小过拟合。

2.6 全连接层
全连接层通常用在网络末端用于分类任务

3、深度CNN结构演化史
研一汇报第九周(2019.12.15)

4、CNN中的结构创新
目的:了解网络结构变化,为课题开展做准备。比如文章提到大多数创新点是与深度与空间利用有关,可为后期开展课题提供思路。

CNN性能改进的主要动力来自处理单元的????组和新 模块的设计。
CNN架构中的大多数创新都与深度和空间利用有关。

根据架构修改的类型, CNN可以大致分为以下七个类别:空间利用,深度,多路径,宽度,特征图利用,通道提 升和基于注意力的CNN。

研一汇报第九周(2019.12.15)

  • 基于空间利用的CNN
    不同大小的过滤器封装了不同级别的粒度,利用空间滤波器来改善这方面的性能。
    传统多层全连接神经网络的主要局限性在于,它将每个像素视为一个单????的输入并对其进行转换,这是一个巨大的计算负担。

LeNet:从多个位置提取相似特征,忽略了像素之间的相关性,减少了参数数????和计算????,而且能够自动学习特征。【手写数字识别】

AlexNet:通常情况下,深度会提高图像不同分辨率的泛化能力,但是与深度增 加相关的主要缺点是过拟合。????叠下采样和局部响应归一化也被用于减少过度拟 合来提高泛化性,使用了大型过滤器(11x11 和5x5)【图像识别】研一汇报第九周(2019.12.15)
ZefNet:目标是在训练期间监视学习方案,从而将发现用于诊断与模型相关的潜在问题。
颠倒卷积和池化操作的顺序。反向映射将卷积层的输出投影回视觉上可感知的图像模式,给出了在每一层学习的内部特征表示的神经元级别的解释。
减小过滤器尺寸和步幅以在前两个卷积层中保留最大数????的特征,从而最大限 度地提高了CNN的学习能力。

VGG:模块化的分层模式,VGG用一堆3x3卷积 层代替了11x11和5x5滤波器,在卷积层之间放置1x1卷积来调节网络的复杂性,减少参数的数????提供了较低的计算复杂性。将最大池化层放置在卷积层之 后,同时执行填充以保持空间分辨率。
VGG相关的主要限制是计算成本高。即使使用小尺寸的滤波器,由于使用 了约1.4亿个参数,VGG仍承受着很高的计算负担。

GoogleNet:主要目标是在降低的计算成本同时实现高精度。引入了incepcon块的新概 念,通过拆分、变换和合并思想整合了多尺度卷积变换。

省略不相关的特征图(通道)来克服冗余 信息和降低成本的问题。
最后一层使用全局平均池来代替连接层,从而降低 了连接密度。

GoogleNet的主要缺点是其异构拓扑,需要在模块之间进行自定 义。另一个限制是表示瓶颈,它极大地减少了下一层的特征空间,因此有时可 能会导致有用信息的丢失。
研一汇报第九周(2019.12.15)

  • 基于深度
    随着深度的增加,网络可以通过许多非线性映射和改进
    的特征表示来更好地近似目标函数。深度是调节网络学习能力的????要维度
    ResNet:在CNN中引入残差学习的概念,基于多路径的CNN,在图像识别和定位任务上的良好性能表明。研一汇报第九周(2019.12.15)
    ResNext:聚合残差变换网络,是对Incepcon网络的改进,引入
    cardinality的概念,以强大而简单的方式利用了分割,变换和合并。
    ResNext的复杂度是通过在3x3卷积之前应用低嵌入(1x1滤波器)来调节的,优化训 练[141] 使用跳跃连接。
    研一汇报第九周(2019.12.15)

  • 基于多路径
    深度会导致梯度消失–引出多路径

Highway Networks:由于层数众多,误差的反向传播可能会导致较低层的梯度值较小。过在层中分配两个⻔单元(等式 (5)),可以实现跨层的信息畅通无阻。
ResNet:旁路途径,在层内引入了快捷连接以实现跨层连接。
ResNet的数学公式:
g(xi) = f (xi) + xi
f(xi) = g(xi) − xi
「f(xi)是转换后的信号,而xi是原始输入。 原始输入xi通过旁路路径添加到f(xi)。 本
质上,g(xi) − xi进行残差学习」
ResNet的问题在于它通过附加信息转换显式地保留信息,因此许多层可能 贡献很少或根本没有信息
DenseNets:解决梯度消失问题,以前馈的方式将每一层连接到其他每一层,将所有先前层的特征图用作 所有后续层的输入。

  • 基于宽度的多连接CNNs
    深度残差网络相关的主要缺点是特征????用问题

WideResNet:使ResNet变宽而不是变深来利用残差块的功能,引入附加因子k,该 因子控制网络的宽度。
Pyramidal Net:金字塔网络【特征图的深度以自上而下的方式逐渐增加】,金字塔网络逐渐增加了每个残差单位的宽度,覆盖所有可能的位置。
在金字塔网络中,特征图的深度由因子l调节,并使用公式(9) 计算。
研一汇报第九周(2019.12.15)
Dl表示第l个残差单元的维数,n是残差单元的总数,而γ是阶跃因子,并且 γ/n 调节深度的增加。
金字塔形网的主要问题在于,随着宽度的增加,空间和时间都发生二次方的增加。

Xcepcon:认为是一种极端的Incepcon架构,利用了AlexNet引入的
深度可分离卷积的思想。研一汇报第九周(2019.12.15)

  • 基于特征图利用的CNN
    巨大的特征集可能会产生噪声影响,从而导致网络过拟合。这表明,除了网络工程之外,特征图的选择在改善网络的泛化方面可以发????????要作用。
    Squeeze和Excitacon网络【SE-Network】:抑制了不太重????要的特征图,但赋予了指定特征图类较高的权????重。SE块两个操作:????挤压和激发

研一汇报第九周(2019.12.15)

  • 基于通道(输入)利用的CNNs
    CNN的学习依赖于输入表示。输入中缺乏多样性和类别可辨别信息可能会影响CNN作为判别器的性能。在CNN中引入了使用辅助 学习器的通道提升(输入通道维度)的概念,以增强网络的表示。
    使用TL(Transfer Learning)的通道提升CNN:通过在深层生成模型人为地创建额外的通道(称为辅助通道),然后通过深层判别模型加以利
    用,从而进行通道提升.这一想法可以拓展到在深度体系结构的任何层提供辅助通道.
    研一汇报第九周(2019.12.15)
  • 基于注意力机制的CNNS
    人们瞥⻅一连串的场景,会注意与上下文相关的部分。此过程不仅 用于聚焦选定区域,而且还可以推断该位置处对象的不同解释,从而有助于更好地捕获视 觉结构。

残差注意力网络(RAN):注意力模块采用自下而上、自顶向下学习策略,分为主干和mask分支,自下而上的前馈结构产生具有强语义信息的低分辨率特征图。而自顶向下的体系结构会产生密集的特征,以便对每个像素进行推断。
通过堆叠多个注意模块,使RAN能够有效识别混乱、复杂和嘈杂的图像。

卷积块注意模组(CBAM):CBAM通过先应用特征图(通道)
注意力,然后再应用空间注意力来依次查找注意力图,以找到经过改进的特征图。
CBAM将平均池化与最大池化连接在一起,从而生成强大的空间 注意力图

5、CNN应用
对象检测、识别、分类、回归、分割等。
【交通标志识别,医学图像分割以及自然图像中人脸,文字,
行人和人的检测】

5.1 自然语言处理

5.2 计算机视觉相关应用

CV包括面部识别、姿势估计、活动识别等多个领域。

5.3 物体检测
物体检测专注于识别图像中的不同对象。【快速R-CNN】

5.4 图像分类
CNN的主要应用之一是医学图像,尤其是使用组织病理学图像诊断癌症的方法。

5.5 语音识别

6、CNN面临的挑战
在与视觉相关的任务中,CNN的一个缺点是,当用于估计物体的姿势、方向和位置时,它通常无法显示出良好的性能。–AlexNet通过引入数据增强的概念在某种程度上解决了这个问题。数据扩充可以帮助 CNN学习各种内部表示形式,从而最终提高性能。

研一汇报第九周(2019.12.15)
7、未来方向

  • 集成学习:多种多样的架构的组合可以通过提取不同级别的语义表示来帮助模型改进各种类别图像的泛化。
  • CNN作为生成学习器。
  • 注意机制
  • 利用网络的规模来增强CNN的学习能力,面向硬件。
  • 自动优化超参数
  • 管道并行扩大深度CNN训练,管道的概念可用于加速大型模型的训练并在不调整超 参数的情况下扩展性能。

下周计划:
1、PyTorch 版《动手学深度学习》
2、《机器学习》吴恩达
3、备考
4、论文

相关文章: