机器学习 --- 决策树

周志华的《机器学习》一书对决策树的讲解全面且细致，本文根据该书籍以及其他文献作出自己的理解，如有不恰当之处，还请指出，谢谢。

一、决策树概述

参照数据结构中树的定义，树由节点与边构成。决策树便是利用树的结构进行决策。

以二分类问题为例子，银行会通过一个人的个人信息（包括有职业，年龄，收入，学历）来决策是否贷款。决策的过程使用了如下图所示的决策树：

机器学习 --- 决策树

(1)

二、构建决策树算法

决策树算法使用了分治的思想，通过递归地选择最优特征，根据该特征对训练数据集进行划分，使得各子类有一个较好的分类过程。

设数据集机器学习 --- 决策树

属性集机器学习 --- 决策树

参照(1)图的实例，这里的数据集机器学习 --- 决策树中的一个实例，表示第个人的个人信息（是个向量，包含有职业，年龄，收入，学历），表示是否贷款给这个人。以根节点为例，职业可以划分成自由职业，白领，工人，那么属性集 A=｛自由职业，白领，工人｝，算法用伪代码型式给出：

TreeGenerate(D,A)

生成节点node

if D中的样本全属于同一类别 C
   将node标记成这个类别C的叶子节点
   return
end if

if 属性集无法区分 or D中的样本再A上取值相同
   将node标记成叶子节点，类别标记成D中样本最多的类
   return
end if

从A中选择最优划分属性a

for a' in a
   为 node 建立一个分支，D'表示样本D中在a上取值为a'的样本子集
   if D'为空
      将分支节点标记为叶子节点，类别标记为D中样本最多的类
      return;
   else
      TreeGenerate(D,A\{a'})   // 这里的A\{a'},表示集合A除去a'部分
   end if
end for

三、划分选择

整个决策树算法中，最关键的部分是如何从A中选择最优的划分属性。

1.信息增益

信息熵是度量样本集合纯度最常用的一种指标，设当前集合机器学习 --- 决策树中第类样本所占比例为，则的信息熵定义为：

机器学习 --- 决策树

其中机器学习 --- 决策树的值越小，的纯度越高

设属性集为机器学习 --- 决策树，使用a对样本集进行划分，则会产生个分支节点，这样就被划分成了个样本子集合，记作。由(1)式，可以计算出相对于信息熵，这样对于各类别，有：

机器学习 --- 决策树

定义信息增益为：

机器学习 --- 决策树

当信息增益越大的时候，表示使用属性机器学习 --- 决策树进行划分所获得的纯度提升越大。因此整个优化目的为：

机器学习 --- 决策树

使用周志华《机器学习》中的例子，一步步构建一个完整的决策树

假设数据集为：

机器学习 --- 决策树

样本总数目为17个

下面分别计算各属性的信息增益：

对色泽属性，有8个正例，9个反例。正例占机器学习 --- 决策树，反例占，因此：

机器学习 --- 决策树

色泽有三个可能的取值{青绿，乌黑，浅白}，因此将数据集机器学习 --- 决策树分成三个子集。

子集合机器学习 --- 决策树表示色泽属性为青绿，有6个样例，其中正例占，反例占

子集合机器学习 --- 决策树表示色泽属性为乌黑，有6个样例，其中正例占，反例占

子集合机器学习 --- 决策树表示色泽属性为浅白，有5个样例，其中正例占，反例占

因此对应子集合的信息增益熵为：

机器学习 --- 决策树

因此信息增益熵为：

机器学习 --- 决策树

同理计算出

机器学习 --- 决策树

这里纹理信息熵最大，因此纹理被选择为划分属性。之后对每个分支节点进一步划分，此时可选的属性集合为{色泽，根蒂，敲声，脐部，触感}，基于机器学习 --- 决策树计算出各属性的增益，在根蒂，脐部，触感三个属性上取得了最大信息增益，可任选一个作为划分属性。最终得到决策树：

机器学习 --- 决策树

2.增益率

上述的信息增益算法对取值数目较多的属性有所偏好，在著名的C4.5决策树使用增益率作为最优划分属性。增益率的定义为：

机器学习 --- 决策树

其中：

机器学习 --- 决策树

上述的增益率准则对可取值数目较少的属性有所偏好，因此C4.5决策树采用了先从划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3.基尼指数

CART决策树使用基尼指数来划分属性。定义数据集机器学习 --- 决策树的基尼值：

机器学习 --- 决策树

基尼值反映从数据集机器学习 --- 决策树中随机抽取两个样本，其类别标记不一致的概率，所以越小，数据集纯度越高。属性的基尼指数定义为：

机器学习 --- 决策树

四、剪枝处理

剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有预剪枝和后剪枝

基于信息增益率的划分准则，有如下结构的决策树。

机器学习 --- 决策树

(1)

这时将之前的数据集划分成训练集（双线上部）和验证集（双线下部）

机器学习 --- 决策树

1.预剪枝

预剪枝指再决策树生成过程中，对每个节点再划分前先进行评估，若当前的划分不能带来泛化性能的提升，则停止划分，并将当前节点标记为叶子节点

基于信息增益准则，如上图所示，未采用任何划分规则时，假设将此根节点标记为叶子节点，并标记成好，因此验证集的精度为机器学习 --- 决策树，若采用脐带属性作为划分准则，则验证集的精度为，因此用脐部进行划分得以确定。之后对上图中的节点2进行预剪枝，基于凹陷得到划分后验证集的精度小于划分前的精度，因此不允划分。对于节点3划分前精度等于划分后精度，未能提升验证集精度，因此也不允予划分。节点4的样本都为同一类别，因此不必进行划分。