信息熵
熵:度量随机变量的确定量:如果变量完全确定则是0,如果变量完全能不确定则是1;
数学期望(mean):是试验中每次可能结果的概率乘以其结果的总和,它反映随机变量平均取值的大小;
条件熵:在确定的一个或多个条件下,确定另一个信息的熵;
推导过程:
相对熵:
互相息:
总结:
相关熵(KL散度):可以度量两个随机变量之间对的距离;
决策树学习算法
利用熵来做决策树:就是熵逐渐减小的过程,但是不要减少为0,防止过拟合;
信息增益:给定特征,使得信息熵增加量;
我们有时会用信息增益率来做;
Gini系数:度量不确定性;x(1-x)的加和
主要是这三种算法:ID3,C4.5,CART
ID3:使用信息增益/互信息 进行特征选择;
C4.5信息增益率来度量;
CART:基尼系数;
决策树的过拟合:剪枝(预剪枝和后剪枝)和随机森林(这个是最重要的:做足够多的树,求平均所以就会消除)
Bagging与随机森林
决策树:优点:训练速度快;
Bootstraping(Bagging -63.2%的数据在袋子里面)策略:从样本中重采集(有重复的)选出n个样本
在所有的属性上,对这个n个样本建立分类器:
重复以上两个步骤m次。即获得m个分类器
将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类;
OOB数据(袋外数据):就是验证数据;
随机是指:样本和特征的选择是随机;
样本不均衡的常用处理办法:
1:降采样(效果更好) 2:重采样
使用随机森林计算特征的重要度:
计算正例经过的节点,如果某一个特征经过的节点数多了,证明这个特征重要程度比较高;