【发布时间】:2015-12-08 23:27:00
【问题描述】:
我有一组 >2000 个数字,是通过测量收集的。我想从这个数据集中抽样,在每个测试中大约 10 次,同时在每个测试中保持整体概率分布(在可能的范围内)。例如,在每个测试中,我想要一些小值、一些中产阶级值、一些大值,均值和方差大致接近原始分布。结合所有测试,我还想要所有样本的总均值和方差,大致接近原始分布。
由于我的数据集是long-tail probability distribution,所以每个分位数的数据量不一样:
图 1. 约 2k 个数据元素的密度图。
我正在使用 Java,现在我正在使用 uniform distribution,并使用数据集中的随机 int,并返回该位置的数据元素:
public int getRandomData() {
int data[] ={1231,414,222,4211,,41,203,123,432,...};
length=data.length;
Random r=new Random();
int randomInt = r.nextInt(length);
return data[randomInt];
}
我不知道它是否如我所愿,因为我使用数据来测量它,这具有很大的序列相关性。
【问题讨论】:
标签: java sampling probability-density