CNN
非线性函数为求模函数的卷积层具有解调效应
那所有的非线性函数都有解调功能吗?对于求模函数当然如此;对于模平方函数则更是如此,而且它的高频抑制更强,但是该函数不是Lipschitz连续的;而对于ReLU函数则不是。
接下来我们重点讨论以下4个问题:
1、Determine how fast the energy contained in the propagated signals (a.k.a. feature maps) decays across layers.
首先对滤波器进行一些假设:1、滤波器是解析的,即∃Rd 的一个超卦限(不必正则)Hλn 使得supp(gλnˆ)⊂Hλn;2、滤波器是高通的。这两个条件包含了大部分的WH(Weyl-Heisenberg)滤波器、小波等
再介绍一个概念——s阶Sobolev函数: Hs(Rd)={f∈L2(Rd)|∫Rd(1+|ω|2)s|f^(ω)|2dω<∞},s≥0。大部分信号都符合该条件。
这样就能得到对于小波滤波器和WH滤波器,每一层特征的能量随着模型深度指数衰减的定理,并且信号越光滑、pooling层降采样率越大,特征的能量衰减越快。而对于一般的滤波器,则为多项式衰减。
2、Guarantee trivial null-space for feature extractor Φ Φ 具有简单零空间指Φ(x)=0⇔x=0。否则后续的线性分类器将在其非零零点处不可分。
为了满足该条件,Φ 应该满足∃A,B>0,s.t.A∥f∥22≤∥Φ(f)∥22≤B∥f∥22
“能量守恒”:所有层信号特征的能量是和信号本身的能量同级别的(Θ(⋅))。由此也可以得到1中特征能量对深度衰减到0的结论。
3、Specify the number of layers needed to have “most” of the input signal energy be contained in the feature vector
定理表明,为了在一定程度上保持所有层特征的能量,模型的深度不能小于某个阈值。同时这也保证了每一层的Φ 的简单零空间性质,因为后面加上去的每一层都是有能量的,这样就避免特征函数在非零处取零的情况。
由于一般的滤波器的特征能量是多项式级别衰减的,所以为了保持相同的信号能量,由一般的滤波器构成的模型需要的深度比小波或WH滤波器的大。回忆ResNet152,对于小波和WH滤波器而言,只需要11层和14层就够了。
4、For a fixed (possibly small) depth, design CNNs that capture “most” of the input signal energy
定理表明,要想降低模型的深度,必须增加第一层特征的channel数,这是depth-width之间的一种trade-off。
最后,作者还给出了在MNIST上的测试结果,结果表明求模运算和ReLU比tanh和logsig性能要好,而且加pooling层的效果和不加pooling效果相当,但是显著降低了计算量。但是最近的模型都在往有方向、不可分小波、去pooling和更高的计算复杂度的趋势发展。