1.信息熵、信息增益、信息增益率

信息熵

衡量的是样本集合的“纯度”,也可以理解为样本中类别区分的不确定性;熵值越小,纯度越高,那么不确定性越低,就越能将样本很好的分类(很确定性的分类比如p1=1;其他的都=0),信息熵最大时,不确定性就最高(当几个类别占比都一样的时候)。
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)

信息增益

生长一棵树,一棵树就是一套规则,得到这套规则;希望这套规则最大程度的帮助做决策和判断。
每一次去做决策都要让不确定性下降最多,即是每一次分裂,每一次决策,都希望不确定能得到下降。所以需要计算在下降之后对比下降之后,下降了多少
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)

信息增益率

ID3算法采用信息增益作为属性划分的依据,树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)

基尼指数(Gini index)

Gini指数越小,数据集纯度越高,不确定性就越小,就越容易区分
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)

决策树过拟合预防
1.方法层面

树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
预剪枝:每次生长一次,都会在验证集上做一次预估,看看效果有没有提升;如果有提升,就生长,;如果没有,就停止
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
后剪枝:先生长完树,然后判断剪之前,和剪之后,验证集有没有提升
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)
树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)

2.工业界做法

直接限制这棵树生长时候的最大深度,或者对每个叶子节最小样本数进行限制

相关文章:

  • 2021-12-31
  • 2021-04-10
  • 2021-04-13
  • 2021-12-17
  • 2021-10-09
  • 2021-06-07
  • 2022-12-23
  • 2021-11-25
猜你喜欢
  • 2021-08-15
  • 2021-04-12
  • 2022-12-23
  • 2021-12-24
  • 2021-10-18
  • 2021-05-26
  • 2022-12-23
相关资源
相似解决方案