1、模型压缩好文章汇

https://zhuanlan.zhihu.com/p/94359189 (tinybert)

统计学中,均方误差(英语:mean-square error、MSE)是对于无法观察的参数X的一个估计函数T;其定义为:

MSE(T)=E((X-T)^2)

在文中针对各层介绍了几种损失函数:

模型压缩文章总结

1、embedding层:teacher和student的词嵌入层的蒸馏均方误差损失

2、transform层蒸馏:隐层损失和attention损失

3、预测层损失,teacher和student的交叉熵损失

 

相关文章: