Structure

Distilling the Knowledge in a Neural Network
Softmax 前:logits(ziz_i),后:probability(qiq_i
qi=exp(zi/T)jexp(zj/T)q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)}

交叉熵梯度函数:
Distilling the Knowledge in a Neural Network
Distilling the Knowledge in a Neural Network
Fun. 1泰勒展开得Fun. 2
若:logits 均值为0,及jzj=jvj=0\sum_jz_j=\sum_jv_j=0
则得:Distilling the Knowledge in a Neural Network

T >= 1
T很大时:求12(zivi)2\frac{1}{2(z_i-v_i)^2}最小
T小时:更不关注于负logits(算噪声),但负logits中可能包含有用信息
原文:Distilling the Knowledge in a Neural Network

Experiment

Subject

MNIST 和 语音识别

Structure

MNIST

单Teacher: 两层FC,每层1200个神经元,后面加Dropout。错67个
单Student: 两层FC,每层800个神经元,无Dropout。错146个
合:错74个。T=20

有意思的东西:
1、Student训练时去掉“3”的数据集,错206,其中有133个是对“3”的辨识错误(测试集中“3”有1010个)。原因是bias过低,增加bias,错109个,其中14个是“3”。
2、训练集只有“7”、“8”时,错误率47.3%,bias降低优化,错误率降至13.2%。

问题:手动调节bias有什么意义?有什么办法可以自动调节bias吗,若有,可以解决数据丢失问题

语音识别

没兴趣,不整理了

Reference

参考博客1
参考博客2
论文

相关文章: