【发布时间】:2017-03-29 08:23:00
【问题描述】:
我可以通过 ELKI 运行具有不同 k 的 LOF,以便轻松比较哪个 k 是最好的吗?
通常你选择一个 k,然后你可以看到例如 ROCAUC。我想为数据集取出最好的k,所以我需要比较多次运行。我可以比手动更改 k 的值并运行更容易吗?例如,我想比较所有 k=[1-100]。
谢谢
【问题讨论】:
我可以通过 ELKI 运行具有不同 k 的 LOF,以便轻松比较哪个 k 是最好的吗?
通常你选择一个 k,然后你可以看到例如 ROCAUC。我想为数据集取出最好的k,所以我需要比较多次运行。我可以比手动更改 k 的值并运行更容易吗?例如,我想比较所有 k=[1-100]。
谢谢
【问题讨论】:
Greedy Ensemble 展示了如何使用 ELKI 附带的 ComputeKNNOutlierScores 应用程序一次有效地对整个 k 范围运行异常值检测方法(通过只计算最近的邻居一次,它会快很多!) .
应用程序EvaluatePrecomputedOutlierScores 可用于通过多种措施对这些结果进行批量评估。
这是我们用于发布的内容
G. O. Campos、A. Zimek、J. Sander、R. J. G. B. Campello、B. Micenková、E. Schubert、I. Assent 和 M. E. Houle
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical Study
数据挖掘和知识发现 30(4): 891-927, 2016, DOI: 10.1007/s10618-015-0444-8
在supplementary material website,您可以查找许多标准数据集的最佳结果,也可以下载原始结果。
但请注意,异常值检测质量结果往往是不确定的。在一个数据集上,一种方法表现最好,在另一个数据集上另一种方法。没有明显的赢家,因为数据集非常多样化。
【讨论】: