【问题标题】:What does the value of 'leaf' in the following xgboost model tree diagram means?下面的 xgboost 模型树形图中 'leaf' 的值是什么意思?
【发布时间】:2017-04-17 00:25:42
【问题描述】:

鉴于上述(树枝)条件存在,我猜测它是条件概率。不过,我不是很清楚。

如果您想了解更多关于使用的数据或我们如何获得此图表的信息,请访问:http://machinelearningmastery.com/visualize-gradient-boosting-decision-trees-xgboost-python/

【问题讨论】:

  • 我是否在某些叶子中看到了一些负值?

标签: python machine-learning random-forest decision-tree xgboost


【解决方案1】:

对于具有 2 个类别 {0,1} 的分类树,叶节点的值表示类别 1 的原始分数。可以使用逻辑函数将其转换为概率分数。下面的计算以最左边的叶子为例。

1/(1+np.exp(-1*0.167528))=0.5417843204057448

这意味着如果一个数据点最终被分配到这个叶子,那么这个数据点属于 1 类的概率是 0.5417843204057448。

【讨论】:

  • 您能分享一下您是如何知道这一点的吗?或者你能给出一些引用吗? tks
  • 当目标是“reg:linear”时,叶子值是什么意思?我看到负值和 0
  • 你能解释一下多类分类吗?那个叶子值代表什么?
  • @Allen,在您的示例中,如果数据点为 1 的概率为 0.54,那么实际预测是什么?我们如何将概率值映射到类?小于 0.5 是 0,大于 0.5 是 1?这就是它的工作方式吗?
【解决方案2】:

属性leaf 是预测值。换句话说,如果树模型的评估在该终端节点(也称为叶节点)处结束,那么这就是返回的值。

在伪代码中(树模型的最左侧分支):

if(f1 < 127.5){
  if(f7 < 28.5){
    if(f5 < 45.4){
      return 0.167528f;
    } else {
      return 0.05f;
    }
  }
}

【讨论】:

    【解决方案3】:

    如果它是一个回归模型(目标可以是 reg:squarederror),那么叶值就是该树对给定数据点的预测。根据您的目标变量,叶值可以为负数。该数据点的最终预测将是该点所有树中叶值的总和。

    如果是分类模型(目标可以是二元:逻辑),那么叶值代表数据点属于正类的概率(如原始分数)。最终概率预测是通过对所有树中的叶子值(原始分数)求和,然后使用sigmoid 函数将其在 0 和 1 之间转换来获得的。叶子值(原始分数)可以是负数,值0实际上代表概率为1/2。

    有关参数和输出的更多详细信息,请访问 -https://xgboost.readthedocs.io/en/latest/parameter.html

    【讨论】:

    • 多类分类模型(multi:softprob)中的叶子值是什么意思?
    • @NickFankhauser,在 (multi:softprob) 的情况下,叶子将包含每个类的概率。 predict 函数还将返回 nrows*nclass 向量,其中 nclass 是类数。
    • 您可以在这里找到详细信息 - xgboost.readthedocs.io/en/latest/…
    • @sameershah141,在分类模型的情况下,我们如何将最终概率预测值映射到实际预测值,例如如果可用的类是 {0, 1},则为 0 或 1
    【解决方案4】:

    你是对的。与叶节点相关联的那些概率值表示在给定树的特定分支的情况下到达叶节点的条件概率。树的分支可以表示为一组规则。比如他answer中提到的@user1808924;代表树模型最左侧分支的一条规则。

    所以,简而言之:树可以线性化为决策规则,其中结果是叶节点的内容,路径上的条件在 if 子句中形成合取。一般来说,规则有以下形式:

    if condition1 and condition2 and condition3 then outcome.
    

    可以通过与右侧的目标变量构建关联规则来生成决策规则。它们也可以表示temporalcausal 关系。

    【讨论】:

      猜你喜欢
      • 2021-12-31
      • 2020-02-08
      • 1970-01-01
      • 2021-06-02
      • 1970-01-01
      • 2020-08-30
      • 2018-07-31
      相关资源
      最近更新 更多