提升树与GBDT - 爱码网

参考
https://www.cnblogs.com/ModifyRong/p/7744987.html
李航《统计学习方法》

提升树：

以决策树为基函数的提升方法为提升树
提升树与GBDT

表示为决策树的加法模型，同时采用前向分布算法：
$f_{M} (x) = \sum_{m = 1}^{M} T (x; Θ_{m})$ ;
$其中， M 为树的个数， T (x; Θ_{m}) 为决策树， Θ_{m} 为决策树参数$ ;

首先确定初始提升树 $f_{0} (x) = 0$ ，第步的模型是：
$f_{m} (x) = f_{m - 1} (x) + T (x; θ_{m})) ，其中 f_{m - 1} (x) 为当前模型，通过经验风险极小化确定下一颗决策树参数 Θ_{m} :$

{\hat{Θ}}_{m} = a r g m i n_{Θ_{m}} \sum_{i = 1}^{N} L (y_{i}, f_{m - 1} (x_{i}) + T (x_{i}; Θ_{m}))

回归树及参数

已知一个训练数据集:
$T = (x_{1}, y_{1}), (x_{2}, y_{2} ）, . . ., (x_{N}, y_{N}), x_{i} \in χ \subseteq R^{n},$
如果将输入空间 $χ$ 划分为J个不相交的区域 $R_{1}, R_{2}, . . ., R_{J}$ ，并且在每个区域上确定输出的常量 $c_{j}$ ，那么树可以表示为：

T (x; Θ) = \sum_{j = 1}^{J} c_{j} I (x \in R_{j})

其中，参数

Θ = (R_{1}, c_{1}), (R_{2}, c_{2}), . . ., (R_{j}, c_{J})

表示树的区域划分和各区域上的常数，J是回归树的复杂度，即叶节点个数。

CART TREE的生成过程实际上就是一个选择特征的过程。

假设我们目前总共有 M 个特征。
第一步我们需要从中选择出一个特征j，做为二叉树的第一个节点。然后对特征j的值选择一个切分点m.一个样本的特征j的值如果小于m，则分为一类，如果大于m,则分为另外一类。如此便构建了CART树的一个节点。其他节点的生成过程和这个是一样的。现在的问题是在每轮迭代的时候，如何选择这个特征j,以及如何选择特征j的切分点m:

寻找切分点的公式：

m i n_{s} [m i n_{c_{1}} \sum_{x_{i} \in R_{1}} (y_{i} - c_{1})^{2} + m i n_{c_{2}} \sum_{x_{i} \in R_{2}} (y_{i} - c_{2})^{2}]

即：选择合适的切点，使得平方损失最小

提升树的损失函数

在前向算法的第m步，给定当前模型 $f_{m - 1} (x_{i})$ ,需求解

{\hat{Θ}}_{m} = a r g m i n_{Θ_{m}} \sum_{i = 1}^{N} L (y_{i}, f_{m - 1} (x_{i}) + T (x_{i}; Θ_{m}))

得到

{\hat{Θ}}_{m} ， 即 第 m

棵树的参数。

平方损失函数： $L (y, f (x)) = (y - f (x))^{2}$ 即：

L (y, f_{m - 1} (x) + T (x; Θ_{m})) = [y - f_{m - 1} (x) - T (x; Θ_{m})]^{2} = [r - T (x; Θ)]^{2}

上式中r为残差，所以提升树在第一部以后只需要拟合当前模型的残差即可
算法步骤：
输入：训练数据

T = (x_{1}, y_{1}), (x_{2}, y_{2} ）, . . ., (x_{N}, y_{N}), x_{i} \in χ \subseteq R^{n}, y_{i} \in γ \subseteq R

输出：提升树

f_{M} (x)

1.初始化 $f_{0} (x) = 0;$
2.对 $m = 1, 2, . . ., M :$
(a)计算残差： $r_{m i} = y_{i} - f_{m - 1} (x_{i}), i = 1, 2, . . ., N$
(b)拟合残差 $r_{m i}$ 学习一个回归树，得到 $T (x; Θ_{m})$
(c)更新 $f_{m} (x) = f_{m - 1} (x) + T (x; Θ_{m})$
3.得到回归提升树：

f_{M} (x) = \sum_{m = 1}^{M} T (x; Θ_{m})

例：《统计学习方法》149-150看完全明白了

梯度提升：利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值去拟合一个回归树，GBDT每一轮迭代的时候都去拟合损失函数在当前模型下的负梯度。这样每轮训练的时候都能够让损失函数尽可能快的减小，尽快的收敛达到局部最优解或者全局最优解。

整理的有点乱。。