【发布时间】:2017-03-03 09:47:59
【问题描述】:
假设对于 K 最近邻算法,我们有一个原始训练数据集 x1,x2,...,xn,我们测试 p1。在对p1进行分类后,我们将p1放入训练数据集。
现在最新的训练数据集是{x1,x2,....,xn,p1},我们测试p2...等等。
我认为以上内容与我们使用“假”数据来训练我们的程序非常反直觉。但我想不出任何证据/理由来说明为什么我们不能使用“假”数据。
【问题讨论】:
-
你可以使用你想要的。但这是否有意义,这是个问题。当使用预测的 p1 作为训练时,您正在强化所学的模型是真实的。在数据集中添加越来越多的预测只会加强它。但遗憾的是,这与真正的训练数据相去甚远。而且您的模型会在其上表现不佳
标签: machine-learning