机器学习-决策树和随机森林

信息熵

熵：度量随机变量的确定量：如果变量完全确定则是0，如果变量完全能不确定则是1；
数学期望(mean)：是试验中每次可能结果的概率乘以其结果的总和，它反映随机变量平均取值的大小；
条件熵：在确定的一个或多个条件下，确定另一个信息的熵；
推导过程：
机器学习-决策树和随机森林
相对熵：

互相息：

总结：

相关熵（KL散度）：可以度量两个随机变量之间对的距离；

决策树学习算法

利用熵来做决策树：就是熵逐渐减小的过程，但是不要减少为0，防止过拟合；
信息增益：给定特征，使得信息熵增加量；
我们有时会用信息增益率来做；
Gini系数：度量不确定性；x(1-x)的加和
机器学习-决策树和随机森林
主要是这三种算法：ID3，C4.5，CART
ID3:使用信息增益/互信息进行特征选择；
C4.5信息增益率来度量；
CART:基尼系数；
决策树的过拟合：剪枝（预剪枝和后剪枝）和随机森林（这个是最重要的：做足够多的树，求平均所以就会消除）

Bagging与随机森林

决策树：优点：训练速度快；
Bootstraping（Bagging -63.2%的数据在袋子里面）策略：从样本中重采集（有重复的）选出n个样本
在所有的属性上，对这个n个样本建立分类器：
重复以上两个步骤m次。即获得m个分类器
将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类；
OOB数据（袋外数据）：就是验证数据；
随机是指：样本和特征的选择是随机；
样本不均衡的常用处理办法：
1：降采样（效果更好） 2：重采样
机器学习-决策树和随机森林
使用随机森林计算特征的重要度：
计算正例经过的节点，如果某一个特征经过的节点数多了，证明这个特征重要程度比较高；