文章目录
《What Do We Understand About Convolutional Networks》-part 4
CNN综述文章《What Do We Understand About Convolutional Networks?》2.3 2.4部分总结
Chapter 2 Multilayer Networks
本章简要概述了计算机视觉中使用的最著名的多层体系结构。本章的目的是为本文其余部分的详细介绍和目前人们对卷积网络在视觉信息处理上的详细应用打下基础。
2.3时空卷积网络
如第2.2节所述,通过使用ConvNet,显着提高了图像应用程序的性能,引发了人们对将2D空间ConvNets扩展到3D时空ConvNets进行视频分析的兴趣。 通常,文献中提出的各种时空架构只是试图将2D架构从空间域(x,y)扩展到时空域(x,y,t)。 在基于时空的ConvNet领域,有三种不同的体系结构设计脱颖而出:LSTM,3D convNet和Two-Stream ConvNets , 将在本节进行描述。
2.3.1基于LSTM的时空CONVnet
LST是将2D网络扩展到时空处理的早期尝试。 LSTM通过门控状态来控制传输状态,内部主要有三个阶段:
(1) 忘记阶段。这个阶段主要对上一节点传进来的输入进行选择性忘记。
(2) 选择记忆阶段。这个阶段对此阶段的输入进行选择性记忆将上面两步得到的结果相加,即可得到传输给下一阶段的状态
(3) 输出阶段。这个阶段决定哪些会被当成当前状态的输出。
基于LSTM的ConvNets的目标是逐步集成时间信息,同时又不限于严格的输入大小。 这种架构的好处之一是使网络具备了文本描述的能力,但它们可能无法捕获更细粒度的运动。 此外,这些模型通常较大,需要更多数据,很难训练。
2.3.2 3D ConvNet
3D ConvNet非常适合于时空特征学习。在3D ConvNets中,卷积和池化操作在时空上执行,而在2D ConvNets中,它们仅在空间上完成。
如上图所示,a) 在一个图像上应用2D卷积会产生一个图像。b) 在视频卷上应用2D卷积(多个帧作为多个通道)也会产生一个图像。c)在视频卷上应用3D卷积可产生另一个卷,保留输入信号的时间信息。
C3D
网络架构:使用目前的GPU内存,设计的C3D ConvNet,具有8个卷积层、5个池化层、两个全连接层,以及一个softmax输出层。所有3D卷积滤波器均为3×3×3,步长为1×1×1。为了保持早期的时间信息设置pool1核大小为1×2×2、步长1×2×2,其余所有3D池化层均为2×2×2,步长为2×2×2。每个全连接层有4096个输出单元。
最近的一种略有不同的方法建议通过将ResNet架构修改为T-ResNet来整合时间。特别是,T-ResNet用1×1×T滤波器扩展了残差单元,该滤波器沿时间维学习滤波操作。
此类3D ConvNet架构的目标是直接在整个模型中集成时空,以便同时捕获信息。 这些方法的主要缺点是必须增加参数数量。
2.3.3Two-Stream ConvNet
双流CNN效仿人体视觉过程理解视频信息,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解。
选用卷积神经网络对获得的数据样本进行特征提取和分类,得到的单帧彩色图像与光流图像作为网络输入,在两条平行的2D ConvNet体系结构中并行运行,分别对图像进行分类后,再对不同模型得到的结果进行融合获得最终结果。
(1) 单独的视频单帧作为表述空间信息的载体,称为空间信息网络;
(2) 光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络
最近的工作称为I3D,它建议在两个流上使用3D卷积来同时使用3D过滤和双流架构。但是,除了网络在基准动作识别数据集上获得更好的结果这一事实之外,作者并没有提出令人信服的论据来支持除了3D滤波之外还需要冗余光流。
2.4全面讨论
多层表示在计算机视觉中一直发挥着重要作用。总体而言,虽然有关多层网络的文献非常多,每个派别都主张一种体系结构优于另一种体系结构,已经出现了一些“最佳实践”。尽管这些网络在许多计算机视觉应用中都取得了良好的结果,但它们的主要缺点仍然是:对所学表征的确切性质的理解很有限,依赖大量训练数据集,没有精确的性能界限,对网络超参数(滤波器大小,非线性度,池化函数、层数和体系结构本身)的选择不明确。在下一章将讨论在ConvNets的背景下,如何选择这些参数。