【问题标题】:Outlier dectection Using ELKI使用 ELKI 检测异常值
【发布时间】:2015-01-09 05:15:34
【问题描述】:

我正在使用 ELKI 数据挖掘软件进行异常值检测。它有许多异常值检测技术,但都提供相同的结果(所有技术的异常值相同,唯一的区别在于点周围的圆圈大小,如下图所示)。我使用 ELKI 网站上提供的鼠标头数据集。在数据集中,所有点都标有其各自的集群名称,无论是来自 ear_left 或 ear_right 还是 head 或 noise。如果我将噪声标签更改为 ear_right,则它将异常点显示为 ear_right。我已将 10 个噪声标签中的 5 个更改为 ear_right。

这是在修改数据集和 ELKI 中使用 KNN 和 LDOF 异常值检测技术的结果:

是软件有问题还是我做错了什么?有人试过用它来检测异常值吗?是否有任何好的软件可以使用 LOF、LDOF、KNN 等不同算法执行异常值检测,或者我可以在哪里找到这些技术的算法源代码?

【问题讨论】:

    标签: algorithm data-mining detection outliers elki


    【解决方案1】:

    这是一个非常简单的数据集。

    这些方法或多或少都有效并不奇怪。因为这是一个玩具数据集,而不是真实数据...在真实数据上,异常值检测非常非常困难。

    请注意,ELKI 中的实现分配数字分数。它们不会产生是/否异常值的决定;从分数中得出这是微不足道的。

    如果您想要二进制结果,例如,您可以将可视化缩放参数设置为仅可视化前 k 个结果。在其他情况下,您可能需要阅读实际论文。例如,LOCI 的作者建议将分数大于 3 的对象视为异常值。 (不幸的是,大多数方法都没有特别简单的解释。)

    不要在分类框中思考。异常值检测是一种探索性技术,而不是分类。

    ELKI 还可以使用许多度量来评估异常值方法的质量,例如 ROC AUC、ROC 曲线、Precision@k、AveP、Maximum-F1。

    【讨论】:

      猜你喜欢
      • 2015-11-22
      • 2013-12-20
      • 2014-02-28
      • 1970-01-01
      • 2015-04-21
      • 1970-01-01
      • 2019-07-24
      • 1970-01-01
      • 2015-10-05
      相关资源
      最近更新 更多