【问题标题】:C4.5 decision tree: can deeps be higher in linear separable data then non-linear separable?C4.5 决策树:线性可分数据的深度可以高于非线性可分数据吗?
【发布时间】:2015-12-29 17:44:03
【问题描述】:
我突然想到,例如,假设我们有二维的N 点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。 (可能我们过拟合了,深度可以到2N)
但是,我们知道,如果数据集是线性可分的,那么决策树可能会占据优势。以上述数据集为例,我们能否确定线性和非线性数据集的深度上限?是否保证线性情况的深度上限小于非线性情况?
【问题讨论】:
标签:
algorithm
machine-learning
decision-tree
【解决方案1】:
有点晚了,但是,您仍然可以查看此示例,在该示例中,不可分离的线性数据集需要的拆分比线性可分离的要少。
【解决方案2】:
假设我们有二维 N 点的训练数据。我们知道,我们总是可以天真地构建决策树,以便我们可以对每个数据点进行分类。
如果有 2 个点具有相同的特征但不同的标签,则不是这样。
决策树基于轴进行拆分,因此线性可分不一定会减少您在树中拆分类所需的拆分数量。
是否保证线性情况的深度上限小于非线性情况?
没有。一个简单的反证法是构造一个具有 2*N 个点和 N 个特征的线性可分数据集。对于 A 类,所有特征值都是负数。对于 B 类,所有特征值都是正的。让每个数据点只有 1 个非零特征值。
尽管是线性可分的,但该数据集需要对每个特征进行拆分(从而增长到最大深度)才能学习。