什么是信息和熵?
上图为例,有这样一个事件,一个体遇到一个A、B、C、D四个选项的选择题,因为每一个选项对的概率都是25%,就造成他的苦恼。
上图中,当一个事件(宏观态)有多种可能情况(微观态)发生时,这种事件对个体而言具体哪种情况的不确定性叫熵。而能够消除人对这事件的不确定性的事物叫信息。
熵和信息虽然在数量上是相等的,但意义相反。获取信息意味着消除不确定性(熵)。
信息描述的是一个观察者确定一个宏观态是哪个微观态时需要的物理量,所以信息是相对的,比如“太阳从西边升起”这句话。对于知道的人,这句话的信息熵为0,对于或东或西的人来说,带来的信息熵为1bit,对于或东南西北四个方向的人来讲,带来的信息熵为2bit。
如何量化熵?
正如其他物理量一样,熵也是一个物理量,它同样可以被量化。量化的根本是要找到一个参照物,并以此为标准。
规定随机投一枚硬币,猜一次硬币正反面的不确定性带来的熵为1bit。
之所以计算熵要用底数为2的log,是因为硬币的数量和可能的结果是指数关系,即硬币数m,就有2^m种情况,而指数的反函数就是底数为2的log。
默认概率是一样的,但当概率不一致时,要知道概率的倒数m等于m个等概率状态的个数。
熵相应公式
下图是信源X的概率分布:
设X是一个有限状态的离散型随机变量,其概率分布如上图所示,则随机变量X的熵定义为下图。
条件熵是在联合符号集合XY上的条件自信息量的数学期望,也叫损失熵,表示信宿收到Y后,信源X仍然存在的不确定度,即随机变量X给定的条件下,随机变量Y的条件熵H[X|Y]。定义如下图所示:
信息增益和互信息量在数值上是相等的,他们表示的是:得知特征X的信息而使得类Y的信息的不确定性减少的程度。一般地,熵H[X]与条件熵H[X|Y]之差称为互信息。
信息增益比定义为其信息增益与训练集D关于特征A的值的熵之比: