Distilling the Knowledge in a Neural Network

Structure

Distilling the Knowledge in a Neural Network
Softmax 前：logits（ $z_i$ ），后：probability（ $q_i$ ）
$q_i=\frac {exp(z_i/T)}{\sum_jexp(z_j/T)}$

交叉熵梯度函数：
Distilling the Knowledge in a Neural Network

Fun. 1泰勒展开得Fun. 2
若：logits 均值为0，及 $\sum_jz_j=\sum_jv_j=0$
则得：

T >= 1
T很大时：求 $\frac{1}{2(z_i-v_i)^2}$ 最小
T小时：更不关注于负logits（算噪声），但负logits中可能包含有用信息
原文： Distilling the Knowledge in a Neural Network

MNIST 和语音识别

单Teacher: 两层FC，每层1200个神经元，后面加Dropout。错67个
单Student: 两层FC，每层800个神经元，无Dropout。错146个
合：错74个。T=20

有意思的东西：
1、Student训练时去掉“3”的数据集，错206，其中有133个是对“3”的辨识错误（测试集中“3”有1010个）。原因是bias过低，增加bias，错109个，其中14个是“3”。
2、训练集只有“7”、“8”时，错误率47.3%，bias降低优化，错误率降至13.2%。

问题：手动调节bias有什么意义？有什么办法可以自动调节bias吗，若有，可以解决数据丢失问题

没兴趣，不整理了