【问题标题】:Is there a way to quantify impact of independent variables with gradient boosting?有没有办法通过梯度提升来量化自变量的影响?
【发布时间】:2017-02-01 10:30:40
【问题描述】:
有人要求我使用梯度提升或随机森林运行模型。然而,到目前为止,一切都很好,唯一的关于变量重要性的输出是基于变量被用作分支规则的次数。我现在被要求基本上获得系数或以某种方式量化变量对目标的影响。
有没有办法用梯度提升模型来做到这一点?我的其他想法是要么仅使用在常规决策树或 GLM 或常规回归模型中显示为分支规则的变量。
任何帮助或想法将不胜感激!非常感谢!
【问题讨论】:
标签:
sas
random-forest
decision-tree
【解决方案1】:
只是为了确定没有误解:决策树/梯度提升(至少在 EM 中)的 SAS 实现使用基于拆分的变量重要性。
基于拆分的重要性不计算拆分的数量。
它是一个变量的平方和减少量(具体是该变量对所有拆分的总和)与模型中所有拆分实现的平方和减少量的比率。
如果您使用代理规则,高度相关的变量将获得大致相同的值。