【发布时间】:2020-01-07 22:40:04
【问题描述】:
我的目标是在包含许多近乎重复的点的数据集中找到异常值,我想使用 DBSCAN 的 ELKI 实现来完成此任务。
由于我不关心集群本身,只关心异常值(我假设离集群相对较远),我想通过在网格上聚合/合并点并使用 scikit 中实现的概念来加快运行时间- 学习为sample_weight。
能否请您显示在 ELKI 中进行类似分析的最少代码?
假设我的数据集包含两列 features(聚合/合并点在 xy 网格上的坐标)和第三列 sample_weights sample_weight_feature(聚合/合并点附近的原始数据集点数) .在 scikit-learn 中,我期望的答案是 -- 以下列方式调用函数 fit:fit(self, features, y=None, sample_weight=sample_weight_feature)
【问题讨论】:
-
感谢@Anony-Mousse 的评论!我看到你和 Erich Schubert 回答了类似的问题(stackoverflow.com/questions/36090906/…stackoverflow.com/questions/31591883/…),所以我认为这与论坛有关。如果您可以建议任何其他地方来问这个问题,请告诉我。谢谢!
-
@Anony-Mousse,我修改了github.com/elki-project/elki/blob/master/addons/tutorial/src/… 以使用 elki.clustering.dbscan.DBSCAN
km = new DBSCAN(dist, eps*eps, minpts),但暂时没有尝试实现 sample_weight 功能。
标签: cluster-analysis dbscan elki