机器学习 7 XGBoost

通过迭代的形式，基于之前构建好的模型，对样本数据做一定的修正【或者改变权重/标签值】然后影响之后模型的构建。不断迭代构建的目的是：让预测更加准确，提升准确度，降低偏差；
Adaboost
1. 通过修正样本的权重
GBDT
1. 通过修正样本的预测值label标签值；

机器学习 7 XGBoost

目标函数
1. $Obj(\theta)=L(\theta) + \Omega(\theta)$
2. $L(\theta)$ 是误差函数，体现的是模型有多拟合数据；
3. $\Omega(\theta)$ 正则化项：惩罚复杂模型的参数用于解决过拟合；

在GBDT的目标函数上增加正则化项[主要考虑基函数的复杂度]
$obj=\sum_{i=1}^nl(y_i, y_i^-(t))+\sum_{i=1}^t\Omega(f_i)$
逐步迭代
1. $y_i^-(0)=0$
2. $y_i^-(1)=y_i^-(0)+f_1(x_i)$
3. $y_i^-(2)=y_i^-(1)+f_2(x_i)$
4. …
5. $y_i^-(t)=y_i^-(t-1)+f_t(x_i)$
假设 $f_t(x)=\omega_q(x)$ , $\omega_q(x)$ 表示第q个叶子节点的预测值
$\Omega(f)=\gamma T+\frac{1}{2}\lambda \sum_{j=1}^T \omega_j^2 $，T表示当前这棵树的叶子节点数，后面表示叶子节点的预测值不能太大【相当于模型的复杂度有两部分组成：叶子节点数(分的太细)和叶子节点的预测值不能太大】

第t次迭代之后，模型的预测等于前t-1次的模型加上第t棵树的预测结果： $y_i^-(t)=y_i^-(t-1)+f_t(x_i)$
目标函数可以写成： $loss=\sum_{i=1}^nl(y_i, y_i^{t-1}+f_t(x_i))+\sum_{t=1}^{t-1}\Omega(f_i)+\Omega(f_t)$
将误差函数中的 $y_i^{t-1}+f_t(x_i)$ 当成一个整体在 $y_i^{t-1}$ 初进行二阶泰勒展开
1. $loss\approx \sum_i^n [l(y_i,y_i^{t-1})+g_i f_t(x_i)+\frac{1}{2}h_i f_t^2(x_i)]+\sum_{i=1}^{t-1}\Omega(f_i)+\Omega(f_t)$
2. $g_i=\partial_{y_i^{t-1}}l(y_i, y_i^{t-1})$
3. $h_i=\partial_{y_i^{t-1}}^2l(y_i, y_i^{t-1})$
$t=y_i+f_t(x), t_0=f_{t-1}(x)$
5.