Structure
Softmax 前:logits(),后:probability()
交叉熵梯度函数:
Fun. 1泰勒展开得Fun. 2
若:logits 均值为0,及
则得:
T >= 1
T很大时:求最小
T小时:更不关注于负logits(算噪声),但负logits中可能包含有用信息
原文:
Experiment
Subject
MNIST 和 语音识别
Structure
MNIST
单Teacher: 两层FC,每层1200个神经元,后面加Dropout。错67个
单Student: 两层FC,每层800个神经元,无Dropout。错146个
合:错74个。T=20
有意思的东西:
1、Student训练时去掉“3”的数据集,错206,其中有133个是对“3”的辨识错误(测试集中“3”有1010个)。原因是bias过低,增加bias,错109个,其中14个是“3”。
2、训练集只有“7”、“8”时,错误率47.3%,bias降低优化,错误率降至13.2%。
问题:手动调节bias有什么意义?有什么办法可以自动调节bias吗,若有,可以解决数据丢失问题
语音识别
没兴趣,不整理了