(ICCV2019):Data-Free Learning of Student Networks(脱离原始数据的知识蒸馏)

核心思想

文章整体的结构
模型压缩论文记录
基于上图中的Teacher Network,训练一个Genetor生成与原始训练数据相似分布的数据,然后基于生成数据通过知识蒸馏对学生网络进行训练,从而实现无数据情况下的模型压缩。
所以核心就是如何训练Genetor,即论文中的3个loss:

  • one-hot loss

作用:生成器生成的图片接近真实数据,那么它在Teacher Network上的输出应该同样接近于用于分类的One-hot向量

  • activation loss

作用:对生成数据(随机噪声)进行约束,模拟真实数据在Feature Map上的响应

  • information entropy loss

作用:引入信息熵损失,平衡生成数据的类别(信息熵越大,则每组图片的类别愈均衡)

实验结果

MNIST
模型压缩论文记录
可视化结果
模型压缩论文记录
CIFAR
模型压缩论文记录
CelebA
模型压缩论文记录

总结

通过组合多个loss,文章所提方案在MNIST、CIFAR、CelebA上取得的结果接近于采用数据的知识蒸馏方法
从可视化的角度看,与真实图片差距非常大,缺少在大型数据上的精度验证,可以作为一种特定方式尝试

相关文章:

  • 2021-10-26
  • 2022-12-23
  • 2022-12-23
  • 2021-10-21
  • 2021-04-11
  • 2021-12-13
  • 2021-04-23
猜你喜欢
  • 2021-12-01
  • 2022-12-23
  • 2021-05-13
  • 2021-06-06
  • 2021-10-09
  • 2021-07-26
相关资源
相似解决方案