PS.完整决策树算法原理及实现请戳☞[传送门]
一、基于树的方法
将特征空间划分成一系列长方形,然后对每个长方形拟合简单的模型(常数)
拟合的模型为:
二、 回归树的生成
(一个回归树对应着输入空间的一个划分以及在划分单元上的输出)
假设将输入空间划分为M个单元,,,⋯,,那么每个区域输出值为(即区域内所有点的均值),由输入和输出得最小二乘的回归树。
注:损失函数为:l(y,f(x))=〖(f(x)-y) 〗^2
目标:〖min〗s m(s)=min [min(c_1 )〖l(y_i-c_1 )+min_(c_2 )l(y_j-c_2 ) 〗]
得到,分割点s=6.5时得到最小损失函数,此时分割区域为:,
输出值为=6.24,=8.91
对两个区域调用上述步骤,最终回归树为:
三、CART回归树的分裂准则——最小方差法
对每个变量、根据不同的分割点计算二叉树两边分裂的数值均值,计算其方差,方差最小的分裂点为其最终分裂点,各个变量方差值对比,选择最小方差的变量作为分裂属性。