【发布时间】:2019-07-03 12:05:56
【问题描述】:
假设我有一个数据集 S,其中包含不同作业的服务时间,例如S={t1,t2,t3,...,tn},其中 ti 是第 i 个作业的服务时间;和 n 我的数据集中的总数。这个 S 只是总体中的一个样本。这里是 300k。我想研究长时间服务的影响,因为有些工作需要很长时间,有些则不需要。我的直觉是根据从真实系统收集的数据来研究这种影响。研究中的系统有数以百万计的工作,这个数字每几秒钟就会增加 100 个新工作。此外,服务时间是通过对本地机器上的作业进行基准测试来衡量的。因此,实际上不断扩展数据集的成本很高。于是,我决定随机抽取300k。
我正在进行模拟实验,我必须生成大量工作及其服务时间(例如数百万),然后进行一些其他计算。
如何在我的模拟中使用 S 作为种群,我遇到了以下问题:
1- 使用 S 本身。我可以使用引导“有替换的样本”或“没有替换的样本”。
2- 将理论分布模型拟合到 S,然后从中提取。
我说的对吗?哪种方法最好(优点和缺点)?第一种方法似乎很简单,每次从 S 中选择一个随机服务时间?可靠吗?感谢任何建议,因为我没有得到统计数据。
【问题讨论】:
标签: python simulation sampling resampling input-parameters