机器学习_决策树和随机森林

1、信息熵：

度量随机变量不确定性的标准，熵越大，信息量越大，不确定性越高，越混乱。
机器学习_决策树和随机森林

2、条件熵：

$X$ 已知的情况下， $Y$ 的不确定性。
机器学习_决策树和随机森林

3、相对熵：

可以度量两个随机变量的距离。（KL散度）

机器学习_决策树和随机森林

4、互信息：
两个随机变量 $X,Y$ 的互信息，定义为： $X,Y$ 的联合分布 $P(X,Y)$ 与边缘分布的乘积 $P(X)P(Y)$ 的相对熵.

机器学习_决策树和随机森林
另一种定义：

机器学习_决策树和随机森林

所谓决策树，就是建立一颗熵下降最快的树，使不确定性减小。（最后可能使测试集的叶子节点熵为0）

建立决策树的关键是当前选择哪个属性作为分类依据，根据不同的目标函数，有三种算法。

1、ID3

用信息增益作为目标函数进行树的节点属性的选择。

2、C4.5

3、CART