【发布时间】:2013-07-02 21:39:02
【问题描述】:
这是一个很好的问题,我很喜欢仔细考虑它......
假设您运行“小部件租赁”网站,并且在您的应用程序上,您希望允许潜在购买者根据价格对小部件进行分类。 (从低到高或从高到低)。
每个小部件可以根据一年中的时间有不同的价格。有些小部件会根据季节有几十种不同的价格,因为您有“旺季”和“淡季”季节。
然而,“小工具”的卖家特别淘气,他们已经意识到,如果他们将他们的小工具设置为一年中的某一天真的很贵,而某天也真的很便宜年,那么它们很容易出现在低和高排序范围内。
目前,为了计算 Widget 的“最低价格”,我采用了一个非常幼稚的解决方案,即从数据集中获取 lowest( N ) 值。
我想要的是为一个小部件获得一个“最低价格”,它准确地描绘了它可以租用的价格......并删除了较低/较高波段的异常值。
看看这张图表...带有值...
X 轴 - 时间(每个重要间隔为一天)
Y 轴 - 价格
X 轴是时间,Y 轴是价格。现在,这包含一个正态分布,并且该数据集中没有任何真正的统计异常值。最低值和最高值之间的价格波动高达 200% 是很常见的。
不过,看看这第二张图表...它包含单日关税,只有 20 ēuros...
我已经尝试过使用 Grubbs 测试,它似乎工作得很好。
重要的是我想得到一个“从价格”。也就是说,我希望能够说“你可以从 XXXX 租这个小部件”。所以它应该反映整体定价,忽略明显的异常值。
如果您向我指出任何已经存在的东西的方向,PHP 加分。 (但我很乐意自己用 PHP 编写代码)。
【问题讨论】:
标签: php algorithm sorting statistics