梯度提升分类树
一、GBDT-logloss算法流程
1、公式导图
注意:
-
Fo是产生的一个起始预测值(可随机),即
两个样本分类的比例的对数 -
负梯度(即残差),其中yi表示我们的样本分类(yi也可以认为概率)。总结起来说负梯度就是
距离真实值还差多少 -
我们可以根据各样本在loss函数中关于
的负梯度 的大小,来对判断
是否合适。
- 最后一个公式中的I表示符号函数,判断样本属性Xi的分类。如果是这乘以1,否则乘以0,最后进行累加。
2、逻辑斯蒂函数(sigmoid曲线函数)–对应yi负梯度里面的公式
sogmoid函数定义: Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。 [1] 在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的**函数,将变量映射到0,1之间。
公式:
公式导数:
Sigmoid函数的图形如S曲线 :
特殊符号:
3、逻辑回归
极大似然估计:
当我们对样本数据进行分类的时候,样本数据正确分类的概率会随着训练统计次数的越来越多,而接近于我们真实的一个概率。
Z = 单个试验可能结果的得分