引用:《西瓜书》

机器学习笔记(10)决策树

要点

其中叶节点对应于决策结果,其他各个节点对应于一个属性。
决策树的目的是为了生成一棵泛化能力强、即处理未见示例能力强的决策树。基本流程是分而治之。

机器学习笔记(10)决策树

划分选择

决策树一个递归过程
由上图可看出,决策树学习的关键是第8行,即如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即”节点”的纯度(purity)越来越高。

信息增益

信息熵
度量纯度的一种指标

H(x)=i=0n1p(xi)I(xi)=i=0n1p(xi)log(p(xi))

H越小,纯度越高

信息增益
此处略(挺复杂)

剪枝

结果过拟合问题

  • 预剪枝
  • 后剪枝

相关文章: