【发布时间】:2019-06-18 22:30:01
【问题描述】:
编辑这个问题是在对集群技术知之甚少的情况下写的,现在事后看来甚至不符合 Stack Overflow 网站的标准,但是我不会让我删除它说别人已经投入了时间和能量在这个(有效点)中,如果我继续删除,我可能暂时无法提问,所以我正在更新这个问题,以使其相关,其他人可以从中学习。它仍然没有严格遵守 SO 准则,因为我自己会将其标记为过于宽泛,但在目前的状态下它没有任何价值,因此增加一点价值将值得反对。
更新的对话主题
问题是在聚类算法中选择最佳聚类数,该算法将对作为图像轮廓检测输入的各种形状进行分组,然后将聚类属性的偏差标记为噪声或异常,要点当时提出的问题是所有的数据集都不一样,在它们中获得的形状不同,并且形状的数量也会因数据集而异。正确的解决方案是使用 DBSCAN(基于密度的噪声空间聚类应用程序)应用程序,该应用程序可以在 scikit-learn 中找到,我当时不知道,它有效,现在产品正在测试中,我只是想回到这个并纠正这个老错误。
老问题
旧标题kmeans聚类中k的动态选择
我必须生成一个预先不知道类数的 k-means 聚类模型,有没有办法根据聚类内的欧几里德距离自动确定 k 的值。
我希望它如何工作。从k的值开始,进行聚类,看它是否满足阈值标准,并相应地增加或减少k。问题与框架无关,如果您有 Python 以外的其他语言的想法或实现,也请分享。
我在研究问题https://www.researchgate.net/publication/267752474_Dynamic_Clustering_of_Data_with_Modified_K-Means_Algorithm 时发现了这一点。 我找不到它的实现。
我正在寻找类似的想法来选择最好的并自己实现,或者可以移植到我的代码中的实现。
编辑 我现在正在考虑的想法是:
肘法
X 均值聚类
【问题讨论】:
-
您可能正在数据中寻找“肘部”或“膝盖”;一个很好的实现the Kneedle method的Python库是kneed。
-
@mc10 是的,我也在想肘部或 x 表示集群,我希望得到更多的想法来比较,抱歉我的问题中没有包括这些。
标签: python scikit-learn cluster-analysis