大致过程

首先上图,简单的神经网络:
信息量,熵,交叉熵,KL散度的手写总结

1 输出的y向量经过softmax变成概率分布向量

信息量,熵,交叉熵,KL散度的手写总结
也意味着,你只可能是属于1类,因为通常你选择最大概率对应的类别作为预测类别。
但是实际中如果出现,人和女人这种类别,有包含关系,最好用逻辑回归

!注意
softmax 只有两种类别时候就是逻辑斯特回归
信息量,熵,交叉熵,KL散度的手写总结

信息量,熵,交叉熵,KL散度的手写总结

2 对应于真实的标签分布,计算交叉熵。

信息量,熵,交叉熵,KL散度的手写总结
注意: KL散度类似于"距离",但不是距离。距离定义是dist(a,b) = dist(b,a)
可以理解为KL是比较用q表示p的信息损失程度,越小越好,最小为0的时候,p=q

为什么用交叉熵不用MSELoss?

我们先看,MSE的梯度和什么有关?用sigmoid**试试:
信息量,熵,交叉熵,KL散度的手写总结
然后用交叉熵试试:
信息量,熵,交叉熵,KL散度的手写总结
你会发现少了一个sigmond的导数:
σ=σ(1σ)\sigma' = \sigma (1-\sigma)
因为我们的σ\sigma表示的是σ(z)=σ(wTx)\sigma(z)=\sigma(w^Tx)
信息量,熵,交叉熵,KL散度的手写总结
当z过大或者过小,都会梯度变小,然后逐渐传播中甚至消失。
消除了sigmoid可以加快梯度下降。

相关文章:

  • 2021-11-14
  • 2021-06-05
  • 2021-05-28
  • 2021-10-29
  • 2021-08-29
  • 2021-07-28
  • 2022-01-31
猜你喜欢
  • 2021-05-01
  • 2021-08-20
  • 2021-12-31
  • 2022-12-23
  • 2021-04-30
  • 2022-12-23
  • 2021-05-15
相关资源
相似解决方案