【发布时间】:2009-11-25 17:33:24
【问题描述】:
我正在寻找一种工具,可以让我生成具有某些统计属性的数据集。例如,假设我想生成 100 万个具有 x 个异常值的整数用于测试。
是否有任何工具可以生成这样的测试数据集?我不一定需要任何花哨的东西,只需要一些基本功能。
【问题讨论】:
标签: testing dataset statistics data-generation
我正在寻找一种工具,可以让我生成具有某些统计属性的数据集。例如,假设我想生成 100 万个具有 x 个异常值的整数用于测试。
是否有任何工具可以生成这样的测试数据集?我不一定需要任何花哨的东西,只需要一些基本功能。
【问题讨论】:
标签: testing dataset statistics data-generation
最简单的技术,至少在数学上最容易理解,是accept-reject algorithm 算法。
【讨论】:
Math from apache commons 有一些工具可用于从简单的概率分布生成数据。使用您正在使用的任何系统的 random() 功能实际上很容易roll your own variant 这些生成函数。假设 random() 返回一个介于 0 和 1 之间的均匀分布的随机数,您只需通过 inverse cumulative distribution function 获取所需的随机数。如果你需要一些非常花哨的东西,你可以使用Markov Chains。
【讨论】: