数据的信息属性是与任务相关的.
对于分类任务, 标签值\(y\)包含的信息量为:

\[info(y) = - ln p(y) \]

其中, \(p(y)\)\(y\)出现的概率. \(p(y)\)越小, \(y\)包含的信息量越大. 这是符合直觉的.

熵定义为信息的期望值.
一个可以分为\(m\)类的数据集\(S\), 它的信息熵为随机得到的一个label包含的信息量的期望值:

\[E(S) = -\sum_{i = 1}^m p(y_i)ln p(y_i) \]

数据集的信息熵代表这个数据集的混乱程度. 熵越大, 越混乱.

信息熵增益

若按照某种特定的方式, 例如按照某一属性的值对\(S\)进行划分, 得到\(n\)个子集. (类比于形象的化学提纯操作, 就是利用目标物的某种性质(如气化温度)).
新的子集们都有自己的信息熵, 它们的熵的和与原\(S\)的熵的差值就是这个划分操作带来的信息熵增益.

\[gain = E(S) - \sum_{i = 1}^n E(S_i) \]

参考

  • 机器学习实战(Machine Learning in Action), 第3章 决策树.

相关文章:

  • 2021-04-30
  • 2021-10-28
  • 2021-04-13
  • 2021-06-07
  • 2021-06-12
  • 2022-02-26
  • 2021-11-25
猜你喜欢
  • 2021-06-09
  • 2021-07-02
  • 2021-06-14
  • 2021-11-03
  • 2021-05-01
相关资源
相似解决方案