一、 熵

1、信息熵:

度量随机变量不确定性的标准,熵越大,信息量越大,不确定性越高,越混乱。
机器学习_决策树和随机森林

2、条件熵:

XX已知的情况下,YY的不确定性。
机器学习_决策树和随机森林

3、相对熵:

可以度量两个随机变量的距离。(KL散度)

机器学习_决策树和随机森林

4、互信息:
两个随机变量X,YX,Y的互信息,定义为:X,YX,Y的联合分布P(X,Y)P(X,Y) 与边缘分布的乘积P(X)P(Y)P(X)P(Y)的相对熵.

机器学习_决策树和随机森林
另一种定义:

机器学习_决策树和随机森林

二、决策树

所谓决策树,就是建立一颗熵下降最快的树,使不确定性减小。(最后可能使测试集的叶子节点熵为0)

建立决策树的关键是当前选择哪个属性作为分类依据,根据不同的目标函数,有三种算法。

1、ID3

用信息增益作为目标函数进行树的节点属性的选择。

2、C4.5

3、CART

相关文章: