【问题标题】:C4.5 decision tree: can deeps be higher in linear separable data then non-linear separable?C4.5 决策树:线性可分数据的深度可以高于非线性可分数据吗?
【发布时间】:2015-12-29 17:44:03
【问题描述】:

我突然想到,例如,假设我们有二维的N 点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。 (可能我们过拟合了,深度可以到2N

但是,我们知道,如果数据集是线性可分的,那么决策树可能会占据优势。以上述数据集为例,我们能否确定线性和非线性数据集的深度上限?是否保证线性情况的深度上限小于非线性情况?

【问题讨论】:

    标签: algorithm machine-learning decision-tree


    【解决方案1】:

    有点晚了,但是,您仍然可以查看此示例,在该示例中,不可分离的线性数据集需要的拆分比线性可分离的要少。

    【讨论】:

      【解决方案2】:

      假设我们有二维 N 点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。

      如果有 2 个点具有相同的特征但不同的标签,则不是这样。

      决策树基于轴进行拆分,因此线性可分不一定会减少您在树中拆分类所需的拆分数量。

      是否保证线性情况的深度上限小于非线性情况?

      没有。一个简单的反证法是构造一个具有 2*N 个点和 N 个特征的线性可分数据集。对于 A 类,所有特征值都是负数。对于 B 类,所有特征值都是正的。让每个数据点只有 1 个非零特征值。

      尽管是线性可分的,但该数据集需要对每个特征进行拆分(从而增长到最大深度)才能学习。

      【讨论】:

        猜你喜欢
        • 2015-07-22
        • 2017-03-20
        • 2021-05-09
        • 2016-12-31
        • 2021-08-24
        • 2013-11-28
        • 2021-10-06
        • 1970-01-01
        • 2015-07-20
        相关资源
        最近更新 更多