【发布时间】:2017-08-28 14:41:57
【问题描述】:
我目前正在开发一款集换式卡牌游戏 (TCG) 定价应用程序。它的工作是收集来自不同供应商的数据,并使用这些数据来确定任何给定卡的市场价格。为了举例,让我们考虑一张理论牌 X。
X 具有多种值,具体取决于销售它的供应商。以下是其值的数组:
[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]
这些值是指其美元 ($) 值。
根据我作为该市场客户的经验,我假设定价数据是正态分布。定价数据倾向于一个价格,许多不同的供应商将他们的卡定价接近所述价格(以保持竞争力),偶尔会出现异常值。
在这些假设下,我将如何消除上述数据集中的异常值?乍一看,2.00 美元和 0.10 美元似乎是异常值。但价格在市场上波动。卡牌价值飙升和反坦克的情况并不少见。
我研究了一些方法,例如使用平均值的标准偏差阈值(例如,如果价格与平均值的标准偏差 >2,则认为它是异常值)或使用中值绝对偏差,但我不确定哪种算法在我正在研究的上下文中是否有意义。
【问题讨论】:
标签: algorithm statistics outliers