[论文笔记] MobileNet

作者团队：谷歌
关注点：同时优化网络模型的速度与大小

related works

A1、网络受depth wise seperable convolution (在Inception、Xception中也有用到)的启发
A2、factorized network
A3、Squeezenet使用到了bottleneck的方法
B1、对预训练网络的shrinking、factorizing以及compressing（涉及乘积量化、哈希、减枝、向量量化、霍夫编码等）
B2、distillation，大型网络teach小网络
B3、low bit network

模型结构

1、depth wise seperable convolution

将标准卷积分解成为depthwise convolution和pointwise convolution。类似的分解卷积的方法之前也接触过，在学习数字图像处理时，将二维卷积核分解成两个一维卷积核能够减少计算量与参数量。
[论文笔记] MobileNet
假设标准卷积的输入为 $D_F\times{D_F}\times{M}$ ，输出为 $D_F\times{D_F}\times{N}$ ，由上图，则标准卷积的参数量为 $D_K\cdot{D_K}\cdot{M}\cdot{N}$ ,计算量为 $D_K\cdot{D_K}\cdot{M}\cdot{N}\cdot{D_F}\cdot{D_F}$
depthwise seperable convolution 的参数量为 $D_K\cdot{D_K}\cdot{M}+M\cdot{N}$ ，计算量为： $D_K\cdot{D_K}\cdot{M}\cdot{D_F}\cdot{D_F}+M\cdot{N}\cdot{D_F}\cdot{D_F}$
那么，depthwise separable 与标准卷积参数量之比为
$\frac{Param_{dws}}{Param_{sta}}=\frac{D_K\cdot{D_K}\cdot{M}+M\cdot{N}}{D_K\cdot{D_K}\cdot{M}\cdot{N}}=\frac{1}{N}+\frac{1}{D_K^2}$
depthwise separable 与标准卷积计算量之比为
$\frac{Param_{dws}}{Param_{sta}}=\frac{D_K\cdot{D_K}\cdot{M}\cdot{D_F}\cdot{D_F}+M\cdot{N}\cdot{D_F}\cdot{D_F}}{D_K\cdot{D_K}\cdot{M}\cdot{N}\cdot{D_F}\cdot{D_F}}=\frac{1}{N}+\frac{1}{D_K^2}$

2、shrinking hyperparameters：width multiplier、resolution multiplier

width multiplier：添加超参 $\alpha$ ，改变通道数，原来的输入通道数 $M$ 变为 $\alpha M$ ,输出通道数 $N$ 变为 $\alpha N$ 。这样使得计算量之比变为 $\frac{\alpha}{N}+\frac{\alpha^2}{D_K^2}$ ，参数量约减少为原来的 $\alpha^2$
resolution multiplier：添加超参 $\rho$ ，改变图像大小，原本的边长 $D_F$ 变为 $\rho D_F$ ，这样使得计算量之比变为 $\frac{\alpha \rho^2}{N}+\frac{\alpha^2 \rho^2}{D_K^2}$ ，参数量约减少为原来的 $\alpha^2 \rho^2$

分类精度-计算量：对数线性关系
[论文笔记] MobileNet

分类精度-参数量