树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）

1.信息熵、信息增益、信息增益率

信息熵

衡量的是样本集合的“纯度”，也可以理解为样本中类别区分的不确定性；熵值越小，纯度越高，那么不确定性越低，就越能将样本很好的分类（很确定性的分类比如p1=1;其他的都=0），信息熵最大时，不确定性就最高（当几个类别占比都一样的时候）。
树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）

信息增益

生长一棵树，一棵树就是一套规则，得到这套规则；希望这套规则最大程度的帮助做决策和判断。
每一次去做决策都要让不确定性下降最多，即是每一次分裂，每一次决策，都希望不确定能得到下降。所以需要计算在下降之后对比下降之后，下降了多少
树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）

信息增益率

ID3算法采用信息增益作为属性划分的依据，树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）

基尼指数(Gini index)

Gini指数越小，数据集纯度越高，不确定性就越小，就越容易区分
树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）

决策树过拟合预防

1.方法层面

树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）
预剪枝：每次生长一次，都会在验证集上做一次预估，看看效果有没有提升；如果有提升，就生长，；如果没有，就停止

后剪枝：先生长完树，然后判断剪之前，和剪之后，验证集有没有提升
树模型串联（一）（决策树基础：信息熵、信息增益、信息增益率、基尼指数、过拟合预防）

2.工业界做法

直接限制这棵树生长时候的最大深度，或者对每个叶子节最小样本数进行限制