【发布时间】:2019-01-26 13:42:32
【问题描述】:
我希望能够从数据不服从正态分布的列表中确定异常值。
list = [0, 1, 2, 3, 2, 1, ..., 2, 50, 100, 101, 102, 103, 101, ... 100, 150]
outlier = [50, 150]
有什么想法吗?
【问题讨论】:
我希望能够从数据不服从正态分布的列表中确定异常值。
list = [0, 1, 2, 3, 2, 1, ..., 2, 50, 100, 101, 102, 103, 101, ... 100, 150]
outlier = [50, 150]
有什么想法吗?
【问题讨论】:
一个想法是将概率密度函数 (pdf) 拟合到您的数据中(请参阅 this link)。然后您可以查看某些值在您的估计函数中出现的可能性。任何与您的 pdf 偏差太大的数据点都可能被视为异常值。
编辑 同样考虑到您的数据,您似乎可以将数据与两个正态分布拟合为 explained in this article 与 µ1 = 2、µ2 = 102 和 σ1 = σ2 = 3 大致相同。但是,我建议根据经验估计这些值(或者假设您知道每个高斯,只需从那里获取值)。最后,您可能会检查您的 pdf 是否确实是 multimodal iff d > 1。
这对你有帮助吗?如果没有,请让我们/我知道原因!
干杯
【讨论】: