C4.5 决策树：线性可分数据的深度可以高于非线性可分数据吗？答案

【问题标题】：C4.5 decision tree: can deeps be higher in linear separable data then non-linear separable?C4.5 决策树：线性可分数据的深度可以高于非线性可分数据吗？
【发布时间】：2015-12-29 17:44:03
【问题描述】：

我突然想到，例如，假设我们有二维的N 点的训练数据。我们知道，我们总是可以天真地构建决策树，以便我们可以对每个数据点进行分类。（可能我们过拟合了，深度可以到2^N）

但是，我们知道，如果数据集是线性可分的，那么决策树可能会占据优势。以上述数据集为例，我们能否确定线性和非线性数据集的深度上限？是否保证线性情况的深度上限小于非线性情况？

【问题讨论】：

标签： algorithm machine-learning decision-tree

【解决方案1】：

有点晚了，但是，您仍然可以查看此示例，在该示例中，不可分离的线性数据集需要的拆分比线性可分离的要少。

【讨论】：

【解决方案2】：

假设我们有二维 N 点的训练数据。我们知道，我们总是可以天真地构建决策树，以便我们可以对每个数据点进行分类。

如果有 2 个点具有相同的特征但不同的标签，则不是这样。

决策树基于轴进行拆分，因此线性可分不一定会减少您在树中拆分类所需的拆分数量。

是否保证线性情况的深度上限小于非线性情况？

没有。一个简单的反证法是构造一个具有 2*N 个点和 N 个特征的线性可分数据集。对于 A 类，所有特征值都是负数。对于 B 类，所有特征值都是正的。让每个数据点只有 1 个非零特征值。

尽管是线性可分的，但该数据集需要对每个特征进行拆分（从而增长到最大深度）才能学习。

【讨论】：