（LXTML笔记）Gradient Boosted Decision Tree

AdaBoost-DTree

根据AdaBoost的思想，
（LXTML笔记）Gradient Boosted Decision Tree
我们希望在生成多个分类器 $g_{t}$ 的时候，增加一个类似于adaboost的权重 $u_{t}$ ，即 $g_{t} = A (D, u^{t})$ ，在最后组成最终分类器 $G$ 的时候，增加权重 $a_{t} = a_{t} (u^{t})$ ，这是整体的思路。

那么现在的问题是如何嵌入一个 $u^{t}$ ，使得 $g_{t} = D T r e e (D, u^{t})$ ，注意到之前的Random-Forest等算法中的 $g_{t}$ 仅仅是 $D T r e e (D)$ .

（LXTML笔记）Gradient Boosted Decision Tree

如上图所示，本来加入 $u^{t}$ 应该是在 $E_{i n}$ 中进行的，但是这不一定能很好地解出，所以这里讲其看成一个black box。注意到 $u^{t}$ 在adaboost是怎么引进来的，他是由boost抽样引进的，所以，我们采用红框所示的抽样方法。即对每一组数据 $(x_{n}, y_{n})$ 按 $u_{n}$ 的比例概率来抽取，这样的话可以近似地处理 $E_{i n}$ 且不用改最优化的框架（仅仅是“改”了数据）。

（LXTML笔记）Gradient Boosted Decision Tree

权重 $a_{t}$ 仍采用和adaboost一样的操作。

adaboost-DT用于二分类问题

（LXTML笔记）Gradient Boosted Decision Tree

如上更新，注意到由于是二分类问题 $y_{n}$ 是±1，那么 $u^{t}$ 可以有很好地表达式，这个结果和我们要回传的 $G$ 长得十分类似。

（LXTML笔记）Gradient Boosted Decision Tree

如上图所示，用一种粗糙的解释，实际上上上图中橙色框的部分表示的是一种类似于SVM中的margin，我们希望margin越大越好，即如上图灰色框所示，我们最终希望 $u^{t + 1}$ 越下越好，那么我们可以再弱一些，我们希望能deresases $\sum_{n = 1}^{N} u_{n}^{(t)}$ .
（LXTML笔记）Gradient Boosted Decision Tree

（LXTML笔记）Gradient Boosted Decision Tree
采用的是GD，对exp在原点附近泰勒展开后得知我们需要使得 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 最小化，其中 $h (x_{n})$ 是变量，进一步化简，

这里的推导说明，实际上最小化 $E_{A D A}$ 相当于最小化 $E_{i n}^{u^{(t)}}$ ，所以推来推去，我们发现了最好的 $g_{t}$ 实际上就是可以通过adaboost来解决的，即 $g_{t + 1}$ 由 $u^{t}$ 和 $g_{t}$ 来获得，忘记的同学可以回到adaboost去查看。

（LXTML笔记）Gradient Boosted Decision Tree

得到最优的 $g_{t}$ 之后，接下来，我们要处理最优的步长，由上面的推导，我们能得出最优的步长就是 $l n \sqrt{\frac{1 - ϵ_{t}}{ϵ_{t}}}$ ！实在是震精！

Gradient Boosting for Regression

（LXTML笔记）Gradient Boosted Decision Tree
推广上面adaboost-DT的loss项，可以推广到一般形式，下面将考虑regression问题，即考虑squared-error。

（LXTML笔记）Gradient Boosted Decision Tree

按照上面的推导的话遇到了一个问题，如果要min只要直接取 $h (x_{n}) = + \infty$ 就好了，不过实际上 $h (x_{n})$ 仅仅是代表一个方向而已（想一想GD），长度应该是由步长控制的，所以，我们尝试对 $h (x_{n})$ 做点限制，增加一个 $(h (x_{n})^{2})$ 项
（LXTML笔记）Gradient Boosted Decision Tree

通过配方，我们发现了一个惊人的事实，如果假设 $h$ 是线性的话，那么直接对 ${(x_{n}, y_{n} - s_{n})}$ 做LR即可以得到一个最优解！

（LXTML笔记）Gradient Boosted Decision Tree

得到最优 $h$ 之后，考虑步长，稍微做点代数边形，我们发现一个事实，最优的步长也是可以通过线性回归获得，而且是一元！

对算法重新总结一下即
（LXTML笔记）Gradient Boosted Decision Tree