分类与回归树(classification and regression tree, CART)模型是应用广泛的决策树学习方法,同样由特征选择、树的生成和剪枝组成,既可以用于分类也可以用于回归。
CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。
CART算法主要由以下两步组成:
1.决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大。
2.决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。
CART生成
决策树的生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼系数最小化准则,进行特征选择,生成二叉树。
回归树的生成
最小二乘回归树生成算法
分类树的生成
CART生成算法
CART剪枝
CART剪枝算法从“完全生长”的决策树低端剪去一些子树,使决策树边小,从而能够对未知数据有更准确的预测。