【发布时间】:2014-05-07 21:15:11
【问题描述】:
我有一个表示蛋白质之间距离 (RMSD) 的大型数据集(>300,000 次观察)。我正在构建一个回归模型(随机森林),它应该可以预测任何两种蛋白质之间的距离。
我的问题是我对近距离比赛(短距离)更感兴趣,但是我的数据分布存在很大偏差,因此大多数距离都很大。我并不关心模型能够预测远距离的效果有多好,所以我想确保模型能够准确地预测近距离模型的距离。但是,当我在完整数据上训练模型时,模型的性能并不好,所以我想知道我能做的最好的采样方式是什么,这样我可以保证模型能够准确地预测近距离匹配距离尽可能地同时对数据进行如此多的分层,因为不幸的是,这种有偏差的数据分布代表了我将要验证和测试模型的真实世界数据分布。
以下是我的数据分布,第一列代表距离,第二列代表这个距离范围内的观察次数:
Distance Observations
0 330
1 1903
2 12210
3 35486
4 54640
5 62193
6 60728
7 47874
8 33666
9 21640
10 12535
11 6592
12 3159
13 1157
14 349
15 86
16 12
【问题讨论】:
-
这听起来更像是一个统计问题,而不是编程问题。我建议在Cross Validated 询问。
标签: r machine-learning regression random-forest