重复行如何影响决策树？答案

【问题标题】：how do duplicated rows effect a decision tree?重复行如何影响决策树？
【发布时间】：2016-04-04 15:08:09
【问题描述】：

我正在使用 Rpart{} 为分类变量构建决策树，我想知道是否应该使用仅包含唯一行集的完整数据集。

【问题讨论】：

【解决方案1】：

我的回答是关于决策树的一般问题，而不是关于 R 实现的问题。

决策树的参数通常基于记录数——想到最小叶大小和最小分割搜索大小。此外，纯度测量受构建树时节点大小的影响。当您有重复的记录时，您就隐含地对这些行中的值赋予了权重。

这既不好也不坏。您只需要了解要构建的数据和模型。如果重复值来自不同的实验运行，那么它们应该没问题。

在某些情况下，重复（或等效权重）可能非常糟糕。例如，如果您对数据进行过采样以获得目标上的平衡样本，那么额外的行将是有问题的。单个叶子可能最终由原始数据中的单个实例组成——过度拟合将是一个问题。

【讨论】：

谢谢 Gordon，您的回答很有见地。我发现重复数据可能是使用移位窗口方法进行时间序列分类的系列问题。很多 dup 为一个类创建网关，如果其中一些 dup 渗透到测试中，那么它们会返回一个有缺陷的性能度量。受过重复训练的 DT 可能会在通用性方面失败。

【解决方案2】：

在某些方面，这取决于数据本身。重复的行是有效数据吗？还是它们只是部分重复但仍然很重要？

如果数据是一个城镇在给定时间的温度测量值，那么重复的温度可能很重要，因为它们会将这个变量加权为比另一个不同的单独测量值更正确的温度。

如果数据是三个人同时用同一个温度计记录的温度测量值，那么您可能希望通过减少到唯一值来消除数据中的噪音。

答案很可能是上述的组合。如果您在同一时间段有多个读数冲突，您将选择权重最大的一个，然后决定如何打破平局，如果所有测量值都相同，则删除重复项。通过这种方式，您可以在通过算法之前清理数据。

这一切都归结为数据模型中的相关内容以及重复的行是否与结果相关。

【讨论】：