作者团队:谷歌
关注点:同时优化网络模型的速度与大小

related works

A1、网络受depth wise seperable convolution (在Inception、Xception中也有用到)的启发
A2、factorized network
A3、Squeezenet使用到了bottleneck的方法
B1、对预训练网络的shrinking、factorizing以及compressing(涉及乘积量化、哈希、减枝、向量量化、霍夫编码等)
B2、distillation,大型网络teach小网络
B3、low bit network

模型结构

1、depth wise seperable convolution

将标准卷积分解成为depthwise convolution和pointwise convolution。类似的分解卷积的方法之前也接触过,在学习数字图像处理时,将二维卷积核分解成两个一维卷积核能够减少计算量与参数量。
[论文笔记] MobileNet
假设标准卷积的输入为DF×DF×MD_F\times{D_F}\times{M},输出为DF×DF×ND_F\times{D_F}\times{N},由上图,则标准卷积的参数量为DKDKMND_K\cdot{D_K}\cdot{M}\cdot{N},计算量为DKDKMNDFDFD_K\cdot{D_K}\cdot{M}\cdot{N}\cdot{D_F}\cdot{D_F}
depthwise seperable convolution 的参数量为DKDKM+MND_K\cdot{D_K}\cdot{M}+M\cdot{N},计算量为:DKDKMDFDF+MNDFDFD_K\cdot{D_K}\cdot{M}\cdot{D_F}\cdot{D_F}+M\cdot{N}\cdot{D_F}\cdot{D_F}
那么,depthwise separable 与标准卷积参数量之比为
ParamdwsParamsta=DKDKM+MNDKDKMN=1N+1DK2 \frac{Param_{dws}}{Param_{sta}}=\frac{D_K\cdot{D_K}\cdot{M}+M\cdot{N}}{D_K\cdot{D_K}\cdot{M}\cdot{N}}=\frac{1}{N}+\frac{1}{D_K^2}
depthwise separable 与标准卷积计算量之比为
ParamdwsParamsta=DKDKMDFDF+MNDFDFDKDKMNDFDF=1N+1DK2 \frac{Param_{dws}}{Param_{sta}}=\frac{D_K\cdot{D_K}\cdot{M}\cdot{D_F}\cdot{D_F}+M\cdot{N}\cdot{D_F}\cdot{D_F}}{D_K\cdot{D_K}\cdot{M}\cdot{N}\cdot{D_F}\cdot{D_F}}=\frac{1}{N}+\frac{1}{D_K^2}

2、shrinking hyperparameters:width multiplier、resolution multiplier

width multiplier:添加超参α\alpha,改变通道数,原来的输入通道数MM变为αM\alpha M,输出通道数NN变为αN\alpha N。这样使得计算量之比变为αN+α2DK2\frac{\alpha}{N}+\frac{\alpha^2}{D_K^2},参数量约减少为原来的α2\alpha^2
resolution multiplier:添加超参ρ\rho,改变图像大小,原本的边长DFD_F变为ρDF\rho D_F,这样使得计算量之比变为αρ2N+α2ρ2DK2\frac{\alpha \rho^2}{N}+\frac{\alpha^2 \rho^2}{D_K^2},参数量约减少为原来的α2ρ2\alpha^2 \rho^2


[论文笔记] MobileNet
分类精度-计算量:对数线性关系
[论文笔记] MobileNet
分类精度-参数量

相关文章:

  • 2021-07-17
  • 2022-12-23
  • 2022-01-06
  • 2021-05-05
  • 2021-10-02
  • 2021-08-28
  • 2022-12-23
  • 2021-12-30
猜你喜欢
  • 2021-04-18
  • 2021-12-24
  • 2021-04-06
  • 2021-08-04
  • 2021-12-17
  • 2021-10-10
  • 2021-08-04
相关资源
相似解决方案