【问题标题】:How reliable is the Elbow curve in finding K in K-Means?在 K-Means 中找到 K 时,Elbow 曲线有多可靠?
【发布时间】:2019-03-02 01:11:37
【问题描述】:

所以我试图使用弯头曲线在 K-Means 聚类中找到最佳“K”(聚类数)的值。

对我的数据集中文本列(1467 行)的平均向量(使用 Word2Vec)进行聚类。但是查看我的文本数据,我可以清楚地发现数据可以分为 3 个以上的组。

我读到的理由是在保持平方误差和 (SSE) 低的同时具有较小的 k 值。有人能告诉我肘曲线有多可靠吗? 另外,如果我缺少某些东西。

附上肘部曲线以供参考。我还尝试绘制最多 70 个集群,探索性的。

【问题讨论】:

  • 两个人看着相同的肘部曲线可能会得出关于最佳聚类数的不同结论。另一种测量方法是平均轮廓宽度。还有许多其他措施。在 R 中,您可以使用 NbClust 包及其 NbClust 函数。它将计算多达 30 项措施,并在建议的集群数量上给予您多数票。 (默认情况下,它计算 26 个度量,因为 4 个计算量很大。)使用 factoextra 包中的 fviz_nbclust 函数来可视化结果。一般来说,我会看上下文,而不仅仅是统计指标。
  • @Wolf 感谢您的见解。剪影分数在这里帮助了我,(很高兴我发布了这个),猜猜这些应该被视为启发式方法!

标签: python r cluster-analysis k-means word2vec


【解决方案1】:

“肘部”甚至没有很好的定义。那怎么可能靠谱呢?

您可以通过将数据拆分为 k 个集群时的预期下降来“标准化”这些值,这样会变得更具可读性。 不幸的是,我忘记了它的确切名称。Calinski and Harabasz (1974) 方差比标准?如果我没记错这个名字,那本质上是一个重新调整的版本,让 更有意义。

【讨论】:

    猜你喜欢
    • 2019-08-29
    • 2020-12-16
    • 2011-12-01
    • 2012-04-13
    • 2011-04-11
    • 2017-11-23
    • 2017-03-06
    • 2016-10-12
    • 2013-07-03
    相关资源
    最近更新 更多