如何解释 h2o 决策树？答案

【问题标题】：How to interpret an h2o decision tree?如何解释 h2o 决策树？
【发布时间】：2019-11-19 04:59:24
【问题描述】：

我已经绘制了一个 h2o 决策树：
我在 SO 上关注了很多帖子，如果我错了，请纠正我，但叶子上的值是相关性，级别是分类值的计数，树 0 表示创建的第一棵树。
现在我的问题是
1.我无法弄清楚分类值的“大于或等于”符号和“小于”符号。例如，如果我们在Z<10.032598 之后继续，我们在右侧有“大于或等于”符号，这意味着什么？此外，我们在左侧有一个“小于”符号，NA 是分类变量，但“小于”分类变量意味着什么？
2. 如果我们从顶部 (c) 开始向右走，我们的值为 1，我理解这意味着 c 具有 1 个相关性。但是，如果我们再次下降 1 级到 Z<10.032598 ，右侧的“大于或等于”符号再次表示 1 个相关性。这是什么意思？

【问题讨论】：

标签： python machine-learning decision-tree h2o

【解决方案1】：

如果您正在构建一个简单的决策树，那么叶节点的值是输出概率，而不是相关性，并且级别不是分类值的计数，因为您可以在树中的不同级别重复多个特征。级别由您在训练模型时提供的深度决定。

大于或小于符号表示您必须前往的方向。例如在级别 1，如果 z>10.0325 比你向右走，但如果它比你在树中向左走小。 NA 基本上表明如果值小于阈值或为空，您会向左走。您的模型正在考虑数值的分类变量，H2O 为您提供了使用categorical_encoding 更改它的选项。由于数据是数字格式，因此被解释为数字。
再次出现决定 1 的原因是因为您的模型现在正在检查不同的特征来验证结果。如果第一级失败并且模型不确定输出，它会检查第二级并做同样的事情，并且会沿着树往下走，直到达到预测。

【讨论】：

你的意思是水平是由深度决定的？该模型有 200 个分类变量，因此很明显第一个节点的每一侧有 100 个，最后一个节点有 96 个和 4 个。 c 的概率 1 或 z>10.0325 的概率 1 是什么意思？
决策树不是这样工作的......从提供的图像来看，从根开始的右子树在第一级结束
你可以从树中看到模型检查 z 是否有更大的阈值，如果失败，它会检查它是否有更小的阈值，如果仍然失败，则预测为 0.0，否则它会检查 c 并进行最终预测。
差不多明白了，谢谢！所以如果你看最后一个级别，左边有 96，右边有 4 个分类，96 级别是什么意思？模型是否检查 c，如果它有这 4 个分类，则概率为 1，如果它的 c 有 96 个其他分类，则为 0？
是您的问题二元分类，您是否为每个类构建一棵树。在这种情况下，概率的含义会发生变化，但其余部分将保持不变。所以验证一下。如果您正在构建多棵树，则叶值将显示预测属于该类的概率。