【发布时间】:2013-03-11 00:48:56
【问题描述】:
我正在使用随机森林的 r 包根据氨基酸序列预测蛋白质对之间的距离,主要兴趣是接近的蛋白质(距离更小)。我的训练数据集由 10k 对蛋白质和它们之间的实际距离组成。然而,很少有蛋白质对(小于 0.2%)之间的距离很小,问题是经过训练的随机森林在预测距离较大的蛋白质之间的距离时变得非常准确,而对于距离较小的蛋白质则非常不利。他们。我尝试对训练数据中距离较远的蛋白质进行下采样,但结果仍然不好。我对紧密的蛋白质(它们之间距离小的那些对)更感兴趣。 有一个非常明显的过度拟合信号,因为我的训练准确率为 78,我的测试准确率为 51% 任何建议都非常感谢
【问题讨论】:
-
您有一个数据不平衡的案例。 0.2% 是微不足道的,因此模型(随机森林)会忽略它们。如果您的测试集包含更多距离较短的数据,您应该将它们移动到训练集并使用交叉验证来测试准确性。可能这还不够,因此下一步是对小距离样本进行重采样(搜索“不平衡数据重采样”)
标签: r regression sampling random-forest cross-validation