【发布时间】:2018-05-21 10:09:32
【问题描述】:
我的 xgboost 模型使用 xgboost 包 0.6 版在 python 中进行回归任务训练,使用奇怪的拆分值。一些用作分割标准的值根本不存在于训练数据集中。
示例:
- 在 [Missing,1,2]
的训练集中有一个变量 'text' 的值
- 然而,训练模型中节点的派生分裂标准是'text '
当在数据集中找不到这样的值 (-> 4) 时,这种拆分的可能原因是什么?拆分不会增加信息增益,因为所有样本都在该决策节点之后遵循一个分支。
【问题讨论】:
-
编辑 1:它追溯到 xgboost 如何处理密集和稀疏格式的缺失值。在稀疏格式的情况下,缺失值被放置在最大化增益的分割的一侧。因此,所有缺失值都位于 'text
标签: python machine-learning deep-learning xgboost