信息增益决策树答案

【问题标题】：decision tree on information gain信息增益决策树
【发布时间】：2011-06-01 00:52:18
【问题描述】：

如果我在相同数量的节点上有两个决策树，哪个更好？树1：（F 为假，T 为真）

意思是第一个更宽，而第二个更深。

【问题讨论】：

【解决方案1】：

我知道这个问题已经很老了，但如果您仍然对答案感兴趣，一般来说，更短、更宽的树会“更好”。考虑这样一个事实，即到达内部决策节点“C”需要额外的决策。

您真正需要查看的是每个内部决策节点的熵和增益。熵是特定变量的不确定性或随机性的量。例如，考虑一个具有两个类的分类器，YES 和 NO（在您的情况下为真或假）。如果一个特定的变量或属性，比如 x 有 3 个 YES 类的训练样本和 3 个 NO 类的训练样本（总共 6 个），则熵将为 1。这是因为存在这个变量的两个类的数量相等，并且是您可以获得的最“混合”。同样，如果 x 具有特定类的所有六个训练示例，假设是，那么熵将为 0，因为该特定变量将是纯的，因此使其成为我们决策树中的叶节点。

熵可以通过以下方式计算：

现在考虑增益。请注意，在决策树的每一层，我们选择为该节点呈现最佳增益的属性。增益只是通过学习随机变量 x 的状态而实现的熵的预期减少。增益也称为 Kullback-Leibler 散度。增益可以通过以下方式计算：

【讨论】：

很抱歉评论晚了，但熵计算的一部分中不应该是p_(-)吗？