（转）交叉熵损失函数的推导过程与直观理解

【时间】2019.01.09

【题目】（转）交叉熵损失函数的推导过程与直观理解

一、交叉熵损失函数的推导过程

说起交叉熵损失函数「Cross Entropy Loss」，脑海中立马浮现出它的公式：

（转）交叉熵损失函数的推导过程与直观理解
我们已经对这个交叉熵函数非常熟悉，大多数情况下都是直接拿来使用就好。但是它是怎么来的？为什么它能表征真实样本标签和预测概率之间的差值？上面的交叉熵函数是否有其它变种？也许很多朋友还不是很清楚！没关系，接下来我将尽可能以最通俗的语言回答上面这几个问题。

【推导过程】
我们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。

Sigmoid 函数的表达式和图形如下所示：

（转）交叉熵损失函数的推导过程与直观理解

二、交叉熵损失的直观理解

（转）交叉熵损失函数的推导过程与直观理解