【问题标题】:decision tree on information gain信息增益决策树
【发布时间】:2011-06-01 00:52:18
【问题描述】:

如果我在相同数量的节点上有两个决策树,哪个更好? 树1: (F 为假,T 为真)

意思是第一个更宽,而第二个更深。

【问题讨论】:

    标签: tree decision-tree


    【解决方案1】:

    我知道这个问题已经很老了,但如果您仍然对答案感兴趣,一般来说,更短、更宽的树会“更好”。考虑这样一个事实,即到达内部决策节点“C”需要额外的决策。

    您真正需要查看的是每个内部决策节点的增益是特定变量的不确定性或随机性的量。例如,考虑一个具有两个类的分类器,YESNO(在您的情况下为真或假)。如果一个特定的变量或属性,比如 x 有 3 个 YES 类的训练样本和 3 个 NO 类的训练样本(总共 6 个),则熵将为 1。这是因为存在这个变量的两个类的数量相等,并且是您可以获得的最“混合”。同样,如果 x 具有特定类的所有六个训练示例,假设是,那么熵将为 0,因为该特定变量将是纯的,因此使其成为我们决策树中的叶节点。

    熵可以通过以下方式计算:

    现在考虑增益。请注意,在决策树的每一层,我们选择为该节点呈现最佳增益的属性。增益只是通过学习随机变量 x 的状态而实现的熵的预期减少。增益也称为 Kullback-Leibler 散度。增益可以通过以下方式计算:

    【讨论】:

    • 很抱歉评论晚了,但熵计算的一部分中不应该是p_(-)吗?
    猜你喜欢
    • 2021-12-10
    • 2016-06-23
    • 2014-01-07
    • 2020-04-27
    • 2010-12-27
    • 2011-07-24
    • 2022-11-05
    • 2015-02-08
    • 2017-06-27
    相关资源
    最近更新 更多