CART算法 - 爱码网

前言

本文只涉及分类树，而不涉及回归树，本文大部分内容均来自于李航博士的《统计学习方法》，在此基础上增加一些个人理解

正文

分类树假设决策树是一棵二叉树
分类树其实与决策树差不多，不同之处在于特征选择以及树的剪枝

决策树利用信息增益选择最优特征，分类树利用基尼指数选择最优特征

决策树的剪枝是在所生成的决策树递归地进行剪枝，分类树利用 $α$ 的不同取值范围对分类树进行剪枝生成一系列子树，从子树中选取最优解

特征选择

分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点

注：

最优二值切分点

假设一个训练数据集为 $D$ ，特征为 $A$ ，最优二值切分点就是找到一个特征值 $A_{i}$ ，使得当 $A = A_{i}$ 时，数据集 $D$ 能够很好的归类

基尼指数

分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_{k}$ 则概率分布的基尼指数定义为

G i n i (p) = \sum_{k = 1}^{k} p_{k} (1 - p_{k}) = 1 - \sum_{k = 1}^{k} p_{k}^{2}

注:

\sum_{k = 1}^{k} p_{k} = 1

对于给定的样本集合

D

，其基尼指数为

G i n i (D) = 1 - \sum_{k = 1}^{k} {(\frac{| c_{k} |}{| D |})}^{2}

C_{k}

是

D

中属于第

k

类的样本子集，

K

是类的个数

如果样本集合 $D$ 根据特征 $A$ 是否取某一可能值 $a$ 被分割成 $D_{1}$ 和 $D_{2}$ 两部分，即

D_{1} = {(x, y) \in D | A (x) = a}, D 2 = D - D 1

则在特征

A

的条件下，集合

D

的基尼指数定义为

G i n i (D, A) = \frac{| D_{1} |}{| D |} G i n i (D_{1}) + \frac{| D_{2} |}{| D |} G i n i (D_{2})

基尼指数

G i n i (D)

表示集合

D

的不确定性，基尼指数

G i n i (D, A)

表示经

A = a

分割后集合

D

的不确定性. 基尼指数越大，集合的不确定性也越大

CART生成算法

从根节点开始，递归地对每个结点进行一下操作

对于当前集合 $D$ ，计算现有特征对该数据的基尼指数

注：
要计算所有特征的所有可能取值对该数据的基尼指数
选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点. 依据最优特征及最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点当中去
对两个子结点递归地调用1，2；直至满足停止条件

分类树的剪枝

分类树利用 $α$ 的不同取值范围对分类树进行剪枝生成一系列子树，从子树中选取最优解

注：
$α$ 的值是根据计算得来的，而不是随机设定的区域
CART算法

从整体数 $T_{0}$ 开始剪枝，对 $T_{0}$ 的内部任意结点 $t$ ，以 $t$ 为单结点的树的损失函数为

C_{α} (t) = C (t) + α

以

t

为根节点的子树

T_{t}

的损失函数是

C_{α} = C (T_{t}) + α | T_{t} |

当

α = 0

或

α

很小时，有不等式

C_{α} (T_{t}) < C_{α} (t)

当

α

增大时，在某一

α

处有

C_{α} (T_{t}) = C_{α} (t)

当

α

继续增大时，有

C_{α} (T_{t}) > C_{α} (t)

这时，就可以进行剪枝操作

假设有一棵树 $T_{0}$ ，对 $T_{0}$ 中每一内部结点 $t$ , 计算

g (t) = \frac{C (t) - C (T t)}{| T_{t} | - 1}

它表示剪枝后整体损失函数减少的程度. 在

T_{0}

中减去

g (t)

最小的

T_{t}

，得到的子树作为

T_{1}

，同时将最小的

g (t)

设为

α_{1}

T_{1}

为区间

[α_{1}, α_{2})

的最优子树
对于子树

T_{1}

，减去

g (t)

最小的

T_{t} 1

，得到的子树作为

T_{2}

，同时将最小的

g (t)

设为

α_{2}

，

T_{2}

为区间

[α_{2}, α_{3})

的的最优子树

. . .

经过上面的操作我们能得到一个子树集合 ${T_{1}, T_{2}, . . . T_{n}}$ ，即其对应的 $α$ 值，这样就可以根据交叉验证选取最优子树 $T_{α}$

注：
当 $α$ 的值增大时，为了得到更好的模型，模型的复杂度就会降低（复杂度降低就意味着剪枝），这样从剪枝后的子树集合中选择最好的模型就可以解决过度拟合问题

参考资料

[1]李航.决策树.统计学习方法.2012