将预测数据放入训练数据集中是否有效？答案

【问题标题】：Is it valid to put predicted data into training data set?将预测数据放入训练数据集中是否有效？
【发布时间】：2017-03-03 09:47:59
【问题描述】：

假设对于 K 最近邻算法，我们有一个原始训练数据集 x1,x2,...,xn，我们测试 p1。在对p1进行分类后，我们将p1放入训练数据集。

现在最新的训练数据集是{x1,x2,....,xn,p1}，我们测试p2...等等。

我认为以上内容与我们使用“假”数据来训练我们的程序非常反直觉。但我想不出任何证据/理由来说明为什么我们不能使用“假”数据。

【问题讨论】：

你可以使用你想要的。但这是否有意义，这是个问题。当使用预测的 p1 作为训练时，您正在强化所学的模型是真实的。在数据集中添加越来越多的预测只会加强它。但遗憾的是，这与真正的训练数据相去甚远。而且您的模型会在其上表现不佳

【解决方案1】：

它只会通过使用自己的预测来更新类之间的边界，从而使模型更加偏向于原始训练集。此外，在不提供任何基本事实知识的情况下向您的训练集添加更多观察结果只会使特征空间更加密集，并减少 K 的影响，这会导致更高的过度拟合机会。

【讨论】：