【问题标题】:explanation of sklearn optics plotsklearn optics plot的解释
【发布时间】:2021-12-01 11:18:50
【问题描述】:

我目前正在学习如何在 sklearn 中使用 OPTICS。我正在输入一个 (205,22) 的 numpy 数组。我能够从中得到情节,但我不明白我如何从多个维度获得二维情节以及我应该如何阅读它。我或多或少地理解可达性图,但其余部分对我来说毫无意义。有人可以解释发生了什么。该函数是否只是以某种方式将数据简化为二维?谢谢

【问题讨论】:

    标签: python scikit-learn cluster-analysis optics-algorithm


    【解决方案1】:

    来自 sklearn 用户指南:

    OPTICS 生成的可达距离允许在单个数据集中对集群进行可变密度提取。如上图所示,结合可达距离和数据集 ordering_ 生成可达图,其中点密度表示在 Y 轴上,并且点被排序,使得附近的点相邻。在单个值处“切割”可达性图会产生类似 DBSCAN 的结果; “cut”之上的所有点都被归类为噪声,每次从左到右读取时出现中断都表示一个新的簇。

    其他三个图是由三种不同算法找到的实际聚类的直观表示。

    正如您在 OPTICS 聚类图中看到的那样,有两个高密度聚类(蓝色和青色),由于 xi 值低,根据可达性图的灰色十字被归类为噪声

    在 eps = 0.5 的 DBSCAN 聚类中,由于 epsilon 值太低,算法无法找到任何密度点,因此一切都被视为噪声。

    现在很明显,在第三个图中,由于 epsilon 值的调整,算法只找到了一个集群,并且所有高于 2.0 线的东西都被认为是噪声。

    请参考user guide:

    【讨论】:

    • 是的,这是我理解的内容。我只是在理解我是如何从具有 22 个属性的东西变成只有 2 个属性的东西被绘制为底部三个时遇到问题,所以聚类
    猜你喜欢
    • 2019-07-15
    • 2020-04-11
    • 1970-01-01
    • 2019-12-09
    • 2018-05-02
    • 2019-08-13
    • 2017-05-14
    • 2020-04-06
    • 2020-01-12
    相关资源
    最近更新 更多