信息熵与信息熵增益

数据的信息属性是与任务相关的.
对于分类任务, 标签值\(y\)包含的信息量为:

\[info(y) = - ln p(y) \]

其中, \(p(y)\)为\(y\)出现的概率. \(p(y)\)越小, \(y\)包含的信息量越大. 这是符合直觉的.

熵

熵定义为信息的期望值.
一个可以分为\(m\)类的数据集\(S\), 它的信息熵为随机得到的一个label包含的信息量的期望值:

\[E(S) = -\sum_{i = 1}^m p(y_i)ln p(y_i) \]

数据集的信息熵代表这个数据集的混乱程度. 熵越大, 越混乱.

若按照某种特定的方式, 例如按照某一属性的值对\(S\)进行划分, 得到\(n\)个子集. (类比于形象的化学提纯操作, 就是利用目标物的某种性质(如气化温度)).
新的子集们都有自己的信息熵, 它们的熵的和与原\(S\)的熵的差值就是这个划分操作带来的信息熵增益.

\[gain = E(S) - \sum_{i = 1}^n E(S_i) \]