【问题标题】:How to interpret an h2o decision tree?如何解释 h2o 决策树?
【发布时间】:2019-11-19 04:59:24
【问题描述】:

我已经绘制了一个 h2o 决策树:
我在 SO 上关注了很多帖子,如果我错了,请纠正我,但叶子上的值是相关性,级别是分类值的计数,树 0 表示创建的第一棵树。
现在我的问题是
1.我无法弄清楚分类值的“大于或等于”符号和“小于”符号。例如,如果我们在Z<10.032598 之后继续,我们在右侧有“大于或等于”符号,这意味着什么?此外,我们在左侧有一个“小于”符号,NA 是分类变量,但“小于”分类变量意味着什么?
2. 如果我们从顶部 (c) 开始向右走,我们的值为 1,我理解这意味着 c 具有 1 个相关性。但是,如果我们再次下降 1 级到 Z<10.032598 ,右侧的“大于或等于”符号再次表示 1 个相关性。这是什么意思?

【问题讨论】:

    标签: python machine-learning decision-tree h2o


    【解决方案1】:

    如果您正在构建一个简单的决策树,那么叶节点的值是输出概率,而不是相关性,并且级别不是分类值的计数,因为您可以在树中的不同级别重复多个特征。级别由您在训练模型时提供的深度决定。

    1. 大于或小于符号表示您必须前往的方向。例如在级别 1,如果 z>10.0325 比你向右走,但如果它比你在树中向左走小。 NA 基本上表明如果值小于阈值或为空,您会向左走。您的模型正在考虑数值的分类变量,H2O 为您提供了使用categorical_encoding 更改它的选项。由于数据是数字格式,因此被解释为数字。

    2. 再次出现决定 1 的原因是因为您的模型现在正在检查不同的特征来验证结果。如果第一级失败并且模型不确定输出,它会检查第二级并做同样的事情,并且会沿着树往下走,直到达到预测。

    【讨论】:

    • 你的意思是水平是由深度决定的?该模型有 200 个分类变量,因此很明显第一个节点的每一侧有 100 个,最后一个节点有 96 个和 4 个。 c 的概率 1 或 z>10.0325 的概率 1 是什么意思?
    • 决策树不是这样工作的......从提供的图像来看,从根开始的右子树在第一级结束
    • 你可以从树中看到模型检查 z 是否有更大的阈值,如果失败,它会检查它是否有更小的阈值,如果仍然失败,则预测为 0.0,否则它会检查 c 并进行最终预测。
    • 差不多明白了,谢谢!所以如果你看最后一个级别,左边有 96,右边有 4 个分类,96 级别是什么意思?模型是否检查 c,如果它有这 4 个分类,则概率为 1,如果它的 c 有 96 个其他分类,则为 0?
    • 是您的问题二元分类,您是否为每个类构建一棵树。在这种情况下,概率的含义会发生变化,但其余部分将保持不变。所以验证一下。如果您正在构建多棵树,则叶值将显示预测属于该类的概率。
    猜你喜欢
    • 1970-01-01
    • 2014-06-26
    • 2019-01-14
    • 2018-11-17
    • 1970-01-01
    • 2014-06-15
    • 2019-02-03
    • 2016-08-21
    • 2020-08-16
    相关资源
    最近更新 更多