（十六）GBDT与xgboost

GBDT与xgboost

1. 泰勒公式

定义：泰勒公式是一个用函数在某点的信息描述其附近取值的公式。 局部有效性
基本形式： $f (x) = \sum_{n = 0}^{\infty} \frac{f^{(n)} (x_{0})}{n!} (x - x_{0})^{n}$
- 一阶泰勒展开： $f (x) \approx f (x_{0}) + f^{'} (x_{0}) (x - x_{0})$
- 二阶泰勒展开： $f (x) \approx f (x_{0}) + f^{'} (x_{0}) (x - x_{0}) + f^{″} (x_{0}) \frac{(x - x_{0})^{2}}{2}$
- 迭代形式：假设 $x^{t} = x^{t - 1} + Δ x$ ，将 $f (x^{t})$ 在 $x^{t - 1}$ 处进行泰勒展开：
  $\begin{aligned} (1) & f (x^{t}) & = f (x^{t - 1} + Δ x) \\ (2) & \approx f (x^{t - 1}) + f^{'} (x^{t - 1}) Δ x + f^{″} (x^{t - 1}) \frac{{Δ x}^{2}}{2} \end{aligned}$

2. 梯度下降法（Gradient Descend Method）

在机器学习任务中，需要最小化损失函数 $L (θ)$ ，其中 $θ$ 是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题，它是一种迭代方法：选取初值 $θ^{0}$ ，不断迭代，更新 $θ$ 的值，进行损失函数的极小化。

迭代公式： $θ = θ^{t - 1} + Δ θ$
将 $L (θ^{t})$ 在 $θ^{t - 1}$ 处进行一阶泰勒展开：
$\begin{aligned} (3) & L (θ^{t}) & = L (θ^{t - 1} + Δ θ) \\ (4) & \approx L (θ^{t - 1}) + L^{'} (θ^{t - 1}) Δ θ \end{aligned}$
要使得 $L (θ^{t}) < L (θ^{t - 1})$ ，可使： $Δ θ = - α L^{'} (θ^{t - 1})$ ，则： $θ^{t} = θ^{t - 1} - α L^{'} (θ^{t - 1})$
这里 $α$ 是步长，可通过 line search 确定，但一般直接赋一个小的数。

3. 牛顿法（Newton’s Method）

将 $L (θ^{t})$ 在 $θ^{t - 1}$ 处进行二阶泰勒展开：
$\begin{aligned} (5) & L (θ^{t}) & = L (θ^{t - 1} + Δ θ) \\ (6) & \approx L (θ^{t - 1}) + L^{'} (θ^{t - 1}) Δ θ + L^{″} (θ^{t - 1}) \frac{{Δ θ}^{2}}{2} \end{aligned}$
为了简化分析过程，假设参数是标量（即 $θ $ 只有一维），则可将一阶和二阶导数分别记为 $g$ 和 $h$ ：
$L (θ^{t}) \approx L (θ^{t - 1}) + g Δ θ + h \frac{{Δ θ}^{2}}{2}$
要使得 $L (θ^{t})$ 极小，即让 $g Δ θ + h \frac{{Δ θ}^{2}}{2}$ 极小，可令： $\frac{\partial (g Δ θ + h \frac{{Δ θ}^{2}}{2})}{\partial Δ θ} = 0$
求得 $Δ θ = - \frac{g}{h}$ ，故： $θ^{t} = θ^{t - 1} + Δ θ = θ^{t - 1} - \frac{g}{h}$
参数 $θ$ 推广到向量形式，迭代公式： $θ^{t} = θ^{t - 1} - H^{- 1} g$
这里 $H$ 是海森矩阵

4. 从参数空间到函数空间

GBDT 在函数空间中利用梯度下降法进行优化
XGBoost 在函数空间中用牛顿法进行优化

注：实际上GBDT泛指所有梯度提升树算法，包括XGBoost，它也是GBDT的一种变种，这里为了区分它们， GBDT特指“Greedy Function Approximation： A Gradient Boosting Machine” 里提出的算法，它只用了一阶导数信息。

5. Gradient Boosting Tree 算法原理

Friedman于论文” Greedy Function Approximation…”中最早提出GBDT
其模型 $F$ 定义为加法模型：
$F (x; w) = \sum_{t = 0}^{T} α_{t} h_{t} (x; w_{t}) = \sum_{t = 0}^{T} f_{t} (x; w_{t})$
其中， $x$ 为输入样本， $h$ 为分类回归树， $w$ 是分类回归树的参数， $α$ 是每棵树的权重。
通过最小化损失函数求解最优模型：
$F^{*} = a r g min_{F} \sum_{i = 0}^{N} L (y_{i}, F (x_{i}; w))$
NP难问题 -> 通过贪心法，迭代求局部最优解

6. 详解 XGBoost

6.1 模型函数形式

给定数据集 $D = {(X_{i}, y_{i})}$ ，XGBoost进行 additive training，学习K棵树，采用以下函数对样本进行预测：

\hat{y_{i}} = ϕ (X_{i}) = \sum_{k = 1}^{K} f_{k} (X_{i}) f_{k} \in F

这里

F

是假设空间，

f (x)

是回归树（CART）：

F = {f (X) = w_{q (x)}} (q : R^{m} \to T, w \in R^{T})

$q (x)$ 表示将样本 $x$ 分到了某个叶子节点上， $w$ 是叶子节点的分数（leaf score），所以 $w_{q (x)}$ 表示回归树对样本的预测值

例子：预测一个人是否喜欢电脑游戏

回归树的预测输出是实数分数，可以用于回归、分类、排序等任务中。对于回归问题，可以直接作为目标值，对于分类问题，需要映射成概率，比如采用逻辑函数： $σ (x) = \frac{1}{1 + e^{- z}}$

6.2 目标函数

参数空间中的目标函数：

误差函数可以是square loss， logloss等，正则项可以是L1正则，L2正则等。

Ridge Regression（岭回归）： $\sum_{i = 1}^{n} (y_{i} - θ^{T} x_{i})^{2} + λ | | θ | |^{2}$
LASSO： $\sum_{i = 1}^{n} (y_{i} - θ^{T} x_{i})^{2} + λ | | θ | |_{1}$

6.3 正则项

XGBoost的目标函数（函数空间）
$L (ϕ) = \sum_{i} l (\hat{y_{i}}, y_{i}) + \sum_{k} Ω (f_{k})$
正则项对每棵回归树的复杂度进行了惩罚
相比原始的GBDT， XGBoost的目标函数多了正则项，使得学习出来的模型更加不容易过拟合。
有哪些指标可以衡量树的复杂度？
树的深度，内部节点个数，叶子节点个数(T)，叶节点分数(w)…
XGBoost采用的：
$Ω (f) = γ T + \frac{1}{2} λ | | w | |^{2}$
对叶子节点个数进行惩罚，相当于在训练过程中做了剪枝

6.4 误差函数的二阶泰勒展开

第 $t$ 次迭代后，模型的预测等于前 $t - 1$ 次的模型预测加上第 $t$ 棵树的预测：
${\hat{y_{i}}}^{(t)} = {\hat{y_{i}}}^{(t - 1)} + f_{t} (x_{i})$
此时目标函数可写作：
$L^{(t)} = \sum_{i}^{n} l ({\hat{y_{i}}}^{(t - 1)} + f_{t} (x_{i}), y_{i}) + Ω (f_{t})$
公式中 $y_{i}$ , ${\hat{y_{i}}}^{(t - 1)}$ 都已知，模型要学习的只有第 $t$ 棵树 $f_{t}$
将误差函数在 ${\hat{y_{i}}}^{(t - 1)}$ 处进行二阶泰勒展开：
$L^{(t)} ≃ \sum_{i = 1}^{n} [l (y_{i}, {\hat{y}}^{(t - 1)}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t})$
公式中， $g_{i} = \partial_{{\hat{y}}^{(t - 1)}} l (y_{i}, {\hat{y}}^{(t - 1)}) h_{i} = \partial_{{\hat{y}}^{(t - 1)}}^{2} l (y_{i}, {\hat{y}}^{(t - 1)})$
将公式中的常数项去掉，得到：
${\tilde{L}}^{(t)} = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t})$
把 $f_{t}$ ， $Ω (f_{t})$ 写成树结构的形式，即把下式代入目标函数中
$f (x) = w_{q (x)} Ω (f) = γ T + \frac{1}{2} λ | | w | |^{2}$
得到：
$\begin{aligned} (7) & {\tilde{L}}^{(t)} & = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) \\ (8) & = \sum_{i = 1}^{n} [g_{i} w_{q (x_{i})} + \frac{1}{2} h_{i} w_{q (x)}^{2}] + γ T + λ \frac{1}{2} \sum_{j = 1}^{T} w_{j}^{2} \end{aligned}$
上面第一个 $\sum$ 是对样本累加，第二个 $\sum$ 是对叶节点累加，如何统一起来呢？
定义每个叶节点 $j$ 上的样本集合为： $I_{j} = {i | q (x_{i}) = j}$
则目标函数可以写成按叶节点累加的形式：
$\begin{aligned} (9) & {\tilde{L}}^{(t)} & = \sum_{j = 1}^{T} [(\sum_{i \in I_{j}} g_{i}) w_{j} + \frac{1}{2} (\sum_{i \in I_{j}} h_{i} + λ) w_{j}^{2}] + γ T \\ (10) & = \sum_{j = 1}^{T} [G_{j} w_{j} + \frac{1}{2} (H_{j} + λ) w_{j}^{2}] + γ T \end{aligned}$
如果确定了树的结构（即 $q (x)$ 确定），为了使目标函数最小，可以令其导数为 0，解得每个叶节点的最优预测分数为：
$w_{j}^{*} = - \frac{G_{j}}{H_{j} + λ}$
代入目标函数，得到最小损失为：
${\tilde{L}}^{*} = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T$

6.5 回归树的学习策略

当回归树的结构确定时，我们前面已经推导出其最优的叶节点分数以及对应的最小损失值，问题是怎么确定树的结构？

暴力枚举所有可能的树结构，选择损失值最小的 - NP难问题
贪心法，每次尝试分裂一个叶节点，计算分裂前后的增益，选择增益最大的

分裂前后的增益怎么计算？
ID3算法采用信息增益
C4.5算法采用信息增益比
CART采用Gini系数
XGBoost呢？

6.6 XGBoost 的打分函数

{\tilde{L}}^{*} = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T

\frac{G_{j}^{2}}{H_{j} + λ}

衡量了每个叶子节点对总体损失的的贡献，我们希望损失越小越好，则其值越大越好。
因此，对一个叶子节点进行分裂，分裂前后的增益定义为：

G a i n = \frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ} - γ

G a i n

的值越大，分裂后

L

减小越多。所以当对一个叶节点分割时，计算所有候选(feature,value)对应的 gain，选取 gain 最大的进行分割