【发布时间】:2015-11-28 19:08:04
【问题描述】:
ELKI 是否会因其中包含许多重复值的数据而失败?我有超过 200 万个观测值(1D)的文件,但它只包含几百个唯一值。其余的都是重复的。当我在 ELKI 中运行此文件时,对于 LOF 或 LoOP 计算,它返回 NAN 作为任何小于最高频率值出现次数的 k 的异常值。如果将重复项作为最近的邻居,我可以想象 LRD 计算一定会导致这个问题。但它不应该这样做吗?我们可以依赖 ELKI 针对此类案例产生的结果吗?
【问题讨论】:
标签: probability nan duplicate-data outliers elki