交叉熵的理解

知乎用户的回答

信息量：事件发生的可能性越大，其信息量越低

交叉熵的理解

熵：一个事件各种可能结果的信息量的期望值

交叉熵的理解

相对熵（KL散度）：描述不同分布的差异

交叉熵的理解

交叉熵

交叉熵的理解

机器学习中为什么使用交叉熵作为损失函数？

机器学习的最终目标是学习到数据的真实分布P(real)，这是无法实现的，只能退而求其次，从真实数据中采样得到训练数据，使模型学到的分布P(model)尽可能接近训练数据的分布P(train)。在衡量P(train)和P(model)的差异时，就可以使用KL散度，又因为对于训练数据，其熵是已知的，因此只需要计算交叉熵就可衡量两个分布之间的差异。这就是为什么要采用交叉熵作为损失函数。