1.信息熵、信息增益、信息增益率
信息熵
衡量的是样本集合的“纯度”,也可以理解为样本中类别区分的不确定性;熵值越小,纯度越高,那么不确定性越低,就越能将样本很好的分类(很确定性的分类比如p1=1;其他的都=0),信息熵最大时,不确定性就最高(当几个类别占比都一样的时候)。
信息增益
生长一棵树,一棵树就是一套规则,得到这套规则;希望这套规则最大程度的帮助做决策和判断。
每一次去做决策都要让不确定性下降最多,即是每一次分裂,每一次决策,都希望不确定能得到下降。所以需要计算在下降之后对比下降之后,下降了多少
信息增益率
ID3算法采用信息增益作为属性划分的依据,
基尼指数(Gini index)
Gini指数越小,数据集纯度越高,不确定性就越小,就越容易区分
决策树过拟合预防
1.方法层面
预剪枝:每次生长一次,都会在验证集上做一次预估,看看效果有没有提升;如果有提升,就生长,;如果没有,就停止
后剪枝:先生长完树,然后判断剪之前,和剪之后,验证集有没有提升
2.工业界做法
直接限制这棵树生长时候的最大深度,或者对每个叶子节最小样本数进行限制