【问题标题】:How to separate a thin strip from the rest of data如何将细条与其余数据分开
【发布时间】:2016-05-31 15:21:49
【问题描述】:

我有一个由这张图片表示的数据集。

如您所见,其余数据点顶部有一条细条。问题是我如何使用聚类分析或任何其他技术将条带与其他条带分开。

我尝试了 DBSCAN、KMeans 和层次聚类,并且都给了我类似的结果,图中的颜色显示。

【问题讨论】:

    标签: cluster-analysis k-means hierarchical-clustering dbscan


    【解决方案1】:

    DBSCAN 和 OPTICS 是您的最佳选择。如果数据不是太大,也可以试试meanshift。但他们将能够完美地做到这一点 - 有些点对他们来说是“噪音”。 很明显,k-means 和大多数层次聚类都无法解决这个问题。

    保持 minPts small(5 到 10),并专注于选择 epsilon。它必须足够小以覆盖间隙。 OPTICS 会更容易使用,因为您只需要给出 epsilon 的上限。

    考虑手动指定模型。调整参数直到你得到你想要的结果不会更好。用尺子在绘图上画一条线,通过读取参数将其转换为线性模型...

    【讨论】:

    • 我已经按照您说的尝试了 DBSCAN,但没有成功。所以我画了一条线并手动将星星分开。显然,我无法对大样本执行数百次此操作。那我该怎么办?
    • 样本大小对于手动选择一条线并不重要。如果您的所有数据集都像上面的那样(看到 OPTICS 结果会很有趣!),您可能想要识别非线性形状以使事情更容易分离并找出用什么数学模型来表示这些数据,然后是如何优化该模型。
    猜你喜欢
    • 2020-05-09
    • 1970-01-01
    • 2021-09-23
    • 1970-01-01
    • 2010-09-08
    • 1970-01-01
    • 2014-04-08
    • 1970-01-01
    • 2021-04-15
    相关资源
    最近更新 更多