1.GBDT中的梯度是什么对什么的梯度?
L(yi, F(x) ) 对之前所有轮次tree的和的gradient
2. 给一个有m个样本,n维特征的数据集,如果用LR算法,那么梯度是几维?
n维
3.同样的m*n数据集,如果用GBDT,那么梯度是几维?m维?n维?m*n维?或者是与树的深度有关?或者与树的叶子节点的个数有关?
m维,还有就是gbdt在一阶泰勒展开后需要添加正则化以防止naive solution,而xgb展开到二阶后,如果cost function的二阶导数大于0,相当于某种意义上的自带正则