验证测试 - 它可以是训练集的平均值吗？答案

【问题标题】：Validation test - can it be the average of training set?验证测试 - 它可以是训练集的平均值吗？
【发布时间】：2020-08-05 07:35:08
【问题描述】：

我正在用一些生物实验数据训练 ANN。简而言之，我的输入数据集（特征）由不同样本（细胞系）的基因水平（RNA 表达水平）组成。在这个数据集中，我复制了相同的生物样本，这意味着我测量了相同细胞系或本应相同的细胞系的 RNA 表达水平两次（或更多次）。我已将所有不同的测量值（不同的细胞系、同一细胞系的不同测量值等）作为训练集中的不同样本包括在内，以增加 ANN 的灵活性，而不是计算平均值并仅使用平均值（对于同一细胞系的不同测量值）。

我想知道是否可以使用相同细胞系的不同测量值的平均值作为我的验证测试 - 你怎么看？这是一个回归 ANN，标签是蛋白质结构。

【问题讨论】：

标签： validation machine-learning neural-network

【解决方案1】：

你不能那样做。

验证（和测试）集背后的关键思想是它们必须完全由未见数据组成；而这里情况并非如此，因为用于您的平均值的数据已经在训练期间看到了。

过去有很多可怕的故事（包括研究论文！），人们天真地认为他们可以在他们的特征选择过程中包含他们的验证/测试集，只要他们不使用它们来拟合他们的楷模。他们受了重伤。某些情况见我的博文How NOT to perform feature selection!；对于 Python 中的一个简单的可重现示例，说明在这种情况下可能会出现什么问题（tl;dr：一切），请参阅Should Feature Selection be done before Train-Test Split or after?中的自己的答案@

第二个关键（但通常是隐含的）想法是您的验证/测试集必须与您的训练数据在质量上相似，即理论上它们必须来自相同的数据生成概率分布。并且可以说您的单个样本的分布与其平均值的分布不同。

【讨论】：

第二个要求确实很有趣，也是我没有想到的。我会感兴趣地阅读文章和主题。