【发布时间】:2013-12-21 20:17:55
【问题描述】:
我一直在与我的顾问就这个问题进行一些辩论,我想听听你的意见。
我有一个相当大的数据集,用于构建分类器。我有一个单独的、较小的测试数据集,它是独立于训练集获得的(实际上,您可以说任一集中的每个样本都是独立获得的)。每个样本都有一个类别标签,以及收集日期和位置等元数据。
测试集中没有样本与训练集中的任何样本具有相同的元数据(因为每个样本都是在不同的位置或时间收集的)。但是,特征向量本身可能与训练集中的某个样本相同。例如,可能有两种病毒株分别在非洲和加拿大取样,但它们都具有相同的蛋白质序列(特征向量)。
我的顾问认为我应该从测试集中删除这些样本。他的理由是,在测试方面,这些就像“免费赠品”,可能会人为地提高报告的准确性。
但是,我不同意并认为应该将它们包括在内,因为在现实世界中,分类器看到之前已经看到的样本实际上可能会发生。移除这些样本会让我们离现实更远。
你怎么看?
【问题讨论】:
标签: machine-learning