一、 熵
1、信息熵:
度量随机变量不确定性的标准,熵越大,信息量越大,不确定性越高,越混乱。
2、条件熵:
已知的情况下,的不确定性。
3、相对熵:
可以度量两个随机变量的距离。(KL散度)
4、互信息:
两个随机变量的互信息,定义为:的联合分布 与边缘分布的乘积的相对熵.
另一种定义:
二、决策树
所谓决策树,就是建立一颗熵下降最快的树,使不确定性减小。(最后可能使测试集的叶子节点熵为0)
建立决策树的关键是当前选择哪个属性作为分类依据,根据不同的目标函数,有三种算法。
1、ID3
用信息增益作为目标函数进行树的节点属性的选择。
2、C4.5
3、CART