xgboost原理解析

姓名：Jyx
班级：csdn人工智能直通车-5期
描述：这是本人在学习人工智能时的学习笔记，加深理解

前面我们探讨了什么是Gradient Boosting。xgboost是Gradient Boosting一种算法实现，从前面介绍知道，Gradient Boosting的优化过程只是利用了损失函数的一阶导数。与一般的Gradient Boosting不同，xgboost更进一步，其优化过程考虑了损失函数的二阶导数，并且考虑了正则

xgboost

xgboost的基分类器一般为决策树。
对于任意损失函数 $L (y, F (x))$ ,在第m步，在 $F_{m - 1} (x)$ 进行泰勒展开

\begin{aligned} L (y, F_{m} (x)) & = L (y, F_{m - 1} (x) + α_{m} ϕ (x; θ_{m})) \\ \approx L (y, F_{m - 1} (x)) + g^{m} ϕ (x; θ_{m}) + \frac{1}{2} H^{m} ϕ^{2} (x; θ_{m}) \end{aligned}

这里

g^{m}, H^{m}

分别是

L (y, F_{m - 1} (x))

对

F_{m - 1} (x)

一阶和二阶导数
公式中的其它参数含义请参考我的前一篇文章Gradient Boosting
考虑到

L (y, F_{m - 1} (x))

在本轮循环中为常量，可以丢弃，不影响优化
xgboost的正则定义为

Ω (θ) = γ T + \frac{1}{2} λ \sum_{t = 1}^{T} w_{t}^{2}

这里T为叶子节点的个数，

w_{t}

表示每个叶子节点的分数
所以

\begin{aligned} (1) & L (y, F_{m} (x)) & = \sum_{i = 1}^{N} [g^{m} ϕ (x; θ_{m}) + \frac{1}{2} H^{m} ϕ^{2} (x; θ_{m})] + γ T + \frac{1}{2} λ \sum_{t = 1}^{T} w_{t}^{2} \end{aligned}

对于决策树来说，

ϕ (x; θ_{m})

的取值取决于落在那个叶子节点上，我们用

q_{m} (x_{i})

表示

x_{i}

所属的叶子节点则有

ϕ (x; θ_{m}) = w_{q_{m} (x_{i})}

,于是1式可以写成

\begin{aligned} (2) & L (y, F_{m} (x)) & = \sum_{i = 1}^{N} [g^{m} w_{q_{m} (x_{i})} + \frac{1}{2} H^{m} w_{q_{m} (x_{i})}^{2}] + γ T + \frac{1}{2} λ \sum_{t = 1}^{T} w_{t}^{2} \end{aligned}

另一方面我们用

I_{t}

表示所有属于第

t

个节点的集合，对样本的求和也可以改写成对叶子节点的求和，即

\begin{aligned} (3) & L (y, F_{m} (x)) & = \sum_{t = 1}^{T} [\sum_{x_{i} \in I_{t}} g^{m} w_{t} + \sum_{x_{i} \in I_{t}} \frac{1}{2} H^{m} w_{t}^{2}] + γ T + \frac{1}{2} λ \sum_{t = 1}^{T} w_{t}^{2} \\ = \sum_{t = 1}^{T} [\sum_{x_{i} \in I_{t}} g^{m} w_{t} + \sum_{x_{i} \in I_{t}} \frac{1}{2} H^{m} w_{t}^{2} + \frac{1}{2} λ w_{t}^{2}] + γ T \\ = \sum_{t = 1}^{T} [\underset{G_{t}}{\underset{⏟}{(\sum_{x_{i} \in I_{t}} g^{m})}} w_{t} + \frac{1}{2} (\underset{H_{t}}{\underset{⏟}{\sum_{x_{i} \in I_{t}} H^{m}}} + λ) w_{t}^{2}] + γ T \\ (4) & = \sum_{t = 1}^{T} [G_{t} w_{t} + \frac{1}{2} (H_{t} + λ) w_{t}^{2}] + γ T \end{aligned}

我们希望最小化损失，上式可以看成是一个

w_{t}

的二次方程，其最小值在

- \frac{b}{2 a}

处，即有

\begin{matrix} (5) & {\hat{w}}_{t} = - \frac{G_{t}}{H_{t} + λ} L (y, F_{m} (x)) = - \frac{1}{2} \sum_{t = 1}^{T} \frac{G_{t}^{2}}{H_{t} + λ} + γ T \end{matrix}

直接优化上式是一个很棘手的任务，一般我们是通过一级一级增长来建立决策树的，这样，每个叶子的分裂增益可以很容易求出来

G a i n = \frac{1}{2} [\frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ}] - γ

如果增益小于0，则迭代终止，这里也可以明显的看出

γ

这个正则的作用

这样xgboost的求解过程就包含了两次迭代，一次对树的个数进行迭代，另一个是对每棵树内部的增长进行迭代

算法的更加详细的解释可以参考xgboost的官方文档

对算法中使用的各个变量xgboost官方也给出了如下通俗解释

树的结构
xgboost原理解析

$G_{t}, H_{t} 的计算$

以上所有图片均出自xgboost的官方文档