1.端到端的学习方式
-
2 汇合(池化)层的引入是仿照人的视觉系统对视觉输入对象进行降维(降采样)和抽象。在卷积神经网络过去的工作中,研究者普遍认为汇合层有如下三种功效:
(1)特征不变性。汇合操作使模型更关注是否存在某些特征而不是特征具体的位置。可看作是一种很强的先验,使特征学习包含某种程度自由度,能容忍一些特征微小的位移。
(2)特征降维。由于汇合操作的降采样作用,汇合结果中的一个元素对应于原输入数据的一个子区域,因此汇合相当于在空间范围内做了维度约减,从而使模型可以抽取更广范围的特征。同时减小了下一层输入大小,进而减小计算量和参数个数。
(3)在一定程度上防止过拟合。
-
3 **函数
**函数层,又称非线性映射层。增加整个网络的非线性表达能力。
修正线型单元ReLu(Rectified Linear Unit),是目前深度卷积神经网络最常用的**函数之一。
ReLu(其大于0的部分为1;反之为0)有助于随机梯度下降方法的收敛,比Sigmoid快6倍左右 。
-
4 全连接层
全连接层则起到将学到的特征表示映射到样本的标记空间的作用。
-
5 目标函数
用来衡量预测值与真实值之间的误差。在当下的卷积神经网络中,交叉熵损失函数和ℓ2 损失函数分别是分类问题和回归问题中最为常用的目标函数。
-
6 神经网络的深度和宽度是表征网络复杂度的两个核心因素,不过深度相比宽度在增加网络的复杂性方面更加有效。
-
7 局部感受野
小卷积核通过叠加可以取得与大卷积核同等规模的感受野,其优势也很明显,第一是多层的叠加,加深了网络的深度进而增强了网络容量和复杂度。第二是减少了参数个数。
分布式表示。神经网络中的分布式表示是指语义概念到神经元是一个多对多的映射。即每个语义概念由许多分布在不同神经元中被**的模式表示,而每个神经元有可以参与到许多不同语义概念概念的表示中去。
稀疏特性。神经网络相应的区域多呈现稀疏的特性,响应区域集中且比例较小。
此图是神经网络所能“看到”的图片展示。
-
8 卷积神经网络的压缩。
(1)存储的代价和计算开销太大。而云计算的计算需求也因为云计算的带宽、延迟和全是可用性等问题不能代替本地计算。
(2)另一方面是过参数化(over-parameterization),模型内部参数存在太多的冗余。
(3)在追求模型高准确度的同时,尽可能地降低其复杂度以期达到性能与开销上的平衡。
(4)模型压缩的技术分为前端压缩和后端压缩。前端压缩是不改变网络结构的前提下,对知识蒸馏,设计紧凑的模型,滤波器层面。后端压缩则是包括低秩近似、未加限制的剪枝、参数量化以及二值网络等,其目标在于尽可能地减少模型大小,因而会对原始网络结构造成极大程度的改造。后者太过于极致,维护成本高。
(5)低秩近似。
稠密的矩阵由若干个小规模的矩阵近似重构出来。
直接利用矩阵分解来降低权重矩阵的参数。奇异值分解重构全连接层的权重。
其在中小型网络上取得了很不错的效果。但其超参数量与网络层数呈线性变化趋势,随着网络层数的增加与模型复杂度的提升,其搜索空间会急剧增大。
(6)剪枝与稀疏约束。
剪枝的好处:衡量神经元的重要程度;移除一部分不重要的神经元;对网络进行微调(占用大量的计算资源,微调程度值得斟酌)。后果是严重制约剪枝后的模型通用性。
稀疏约束:稀疏约束与直接剪枝在效果上有着异曲同工之妙,其思路是在网络的优化目标中加入权重的稀疏正则项,使得训练时网络的部分权重趋向于0,而这些0 值元素正是剪枝的对象。因此,稀疏约束可以被视作为动态的剪枝。相对于剪枝的循环反复操作,稀疏约束的优点显而易见:只需进行一遍训练,便能达到网络剪枝的目的。这种思想也被运用到剪枝算法之中,即利用ℓ1, ℓ2 正则化来促使权重趋向于0。
(7)参数量化
属于后端压缩技术。是指从权重中归纳出若干代表来表示莫一类全中的具体数值。
(8)二值网络
(9)知识蒸馏
(10)紧凑的网络结构