如何检测二维数组中的异常值检测？答案

【问题标题】：How to detect outlier detection in two dimensional arrays?如何检测二维数组中的异常值检测？
【发布时间】：2016-01-24 00:41:15
【问题描述】：

给定一个数组：

[ 
  { final_amount: 20.0, shipping_amount: 5 },
  { final_amount: 30.0, shipping_amount: 5.5 },
  { final_amount: 25.0, shipping_amount: 105.5 },
  { final_amount: 325.0, shipping_amount: 125.5 }
]

我怎么能检测到这一点

  { final_amount: 25.0, shipping_amount: 105.5 }

是异常值吗？

更大的 final_amount 意味着更大的 shipping_amount，但是我们的数据集中有一些错误的条目。

如果我只考虑 shipping_amount（具有中值和标准偏差），它会删除一些有效条目，因为它没有考虑 final_amount。

【问题讨论】：

谢谢罗伯特，不知道 stats.sx.com。如果您将其添加为答案，我会接受。

标签： statistics

【解决方案1】：

解决此类问题的正确方法是拥有一个“正常”数据模型和一个或多个“异常”数据模型。其中每一个都是某个类别的 p(data|category)。应用贝叶斯规则来计算 p(category|data) 并在类别中做出一些选择，例如选择具有最大 p(category|data) 的类别。这是一个相当开阔的领域，祝你好运，玩得开心。此外，您可能会对 stats.stackexchange.com 产生更多兴趣。

【讨论】：