梯度提升分类树

一、GBDT-logloss算法流程

1、公式导图

05梯度提升分类树

注意:
  • Fo是产生的一个起始预测值(可随机),即两个样本分类的比例的对数

  • 负梯度(即残差),其中yi表示我们的样本分类(yi也可以认为概率)。总结起来说负梯度就是距离真实值还差多少
    y~i \widetilde{y}_i

  • 我们可以根据各样本在loss函数中关于05梯度提升分类树的负梯度 的大小,来对判断05梯度提升分类树是否合适。

05梯度提升分类树
γmj \gamma_{mj}表示不同分支的预测值

  • 最后一个公式中的I表示符号函数,判断样本属性Xi的分类。如果是这乘以1,否则乘以0,最后进行累加。

2、逻辑斯蒂函数(sigmoid曲线函数)–对应yi负梯度里面的公式

sogmoid函数定义: Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。 [1] 在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络**函数,将变量映射到0,1之间。
公式:
05梯度提升分类树
公式导数:

05梯度提升分类树

Sigmoid函数的图形如S曲线 :

05梯度提升分类树

特殊符号:

y~i() \widetilde{y}_i表示负梯度(残差)

γmj()() \gamma_{mj} 不同叶子(分类)的预测值(得分)

3、逻辑回归

极大似然估计:

当我们对样本数据进行分类的时候,样本数据正确分类的概率会随着训练统计次数的越来越多,而接近于我们真实的一个概率。

Z = 单个试验可能结果的得分

公式推导过程

05梯度提升分类树

05梯度提升分类树

结论:如果要用一个常量来预测y,用log(sum(y)/sum(1-y))是一个最佳的选择。

相关文章:

  • 2021-08-26
  • 2021-09-22
  • 2021-07-07
  • 2021-06-18
  • 2021-07-24
  • 2021-05-26
猜你喜欢
  • 2021-08-29
  • 2021-12-22
  • 2021-09-22
  • 2022-12-23
  • 2022-12-23
  • 2021-05-22
  • 2021-10-01
相关资源
相似解决方案