【问题标题】:How to detect outlier detection in two dimensional arrays?如何检测二维数组中的异常值检测?
【发布时间】:2016-01-24 00:41:15
【问题描述】:

给定一个数组:

[ 
  { final_amount: 20.0, shipping_amount: 5 },
  { final_amount: 30.0, shipping_amount: 5.5 },
  { final_amount: 25.0, shipping_amount: 105.5 },
  { final_amount: 325.0, shipping_amount: 125.5 }
]

我怎么能检测到这一点

  { final_amount: 25.0, shipping_amount: 105.5 }

是异常值吗?

更大的 final_amount 意味着更大的 shipping_amount,但是我们的数据集中有一些错误的条目。

如果我只考虑 shipping_amount(具有中值和标准偏差),它会删除一些有效条目,因为它没有考虑 final_amount。

【问题讨论】:

  • 谢谢罗伯特,不知道 stats.sx.com。如果您将其添加为答案,我会接受。

标签: statistics


【解决方案1】:

解决此类问题的正确方法是拥有一个“正常”数据模型和一个或多个“异常”数据模型。其中每一个都是某个类别的 p(data|category)。应用贝叶斯规则来计算 p(category|data) 并在类别中做出一些选择,例如选择具有最大 p(category|data) 的类别。这是一个相当开阔的领域,祝你好运,玩得开心。此外,您可能会对 stats.stackexchange.com 产生更多兴趣。

【讨论】:

    猜你喜欢
    • 2015-11-22
    • 2021-01-27
    • 2014-04-16
    • 2019-07-24
    • 1970-01-01
    • 2013-09-19
    • 1970-01-01
    • 2012-03-27
    • 2021-06-01
    相关资源
    最近更新 更多