在 K-Means 中找到 K 时，Elbow 曲线有多可靠？答案

【问题标题】：How reliable is the Elbow curve in finding K in K-Means?在 K-Means 中找到 K 时，Elbow 曲线有多可靠？
【发布时间】：2019-03-02 01:11:37
【问题描述】：

所以我试图使用弯头曲线在 K-Means 聚类中找到最佳“K”（聚类数）的值。

对我的数据集中文本列（1467 行）的平均向量（使用 Word2Vec）进行聚类。但是查看我的文本数据，我可以清楚地发现数据可以分为 3 个以上的组。

我读到的理由是在保持平方误差和 (SSE) 低的同时具有较小的 k 值。有人能告诉我肘曲线有多可靠吗？另外，如果我缺少某些东西。

附上肘部曲线以供参考。我还尝试绘制最多 70 个集群，探索性的。。

【问题讨论】：

两个人看着相同的肘部曲线可能会得出关于最佳聚类数的不同结论。另一种测量方法是平均轮廓宽度。还有许多其他措施。在 R 中，您可以使用 NbClust 包及其 NbClust 函数。它将计算多达 30 项措施，并在建议的集群数量上给予您多数票。（默认情况下，它计算 26 个度量，因为 4 个计算量很大。）使用 factoextra 包中的 fviz_nbclust 函数来可视化结果。一般来说，我会看上下文，而不仅仅是统计指标。
@Wolf 感谢您的见解。剪影分数在这里帮助了我，（很高兴我发布了这个），猜猜这些应该被视为启发式方法！

【解决方案1】：

“肘部”甚至没有很好的定义。那怎么可能靠谱呢？

您可以通过将数据拆分为 k 个集群时的预期下降来“标准化”这些值，这样会变得更具可读性。不幸的是，我忘记了它的确切名称。Calinski and Harabasz (1974) 方差比标准？如果我没记错这个名字，那本质上是一个重新调整的版本，让更有意义。

【讨论】：