【发布时间】:2019-03-02 01:11:37
【问题描述】:
所以我试图使用弯头曲线在 K-Means 聚类中找到最佳“K”(聚类数)的值。
对我的数据集中文本列(1467 行)的平均向量(使用 Word2Vec)进行聚类。但是查看我的文本数据,我可以清楚地发现数据可以分为 3 个以上的组。
我读到的理由是在保持平方误差和 (SSE) 低的同时具有较小的 k 值。有人能告诉我肘曲线有多可靠吗? 另外,如果我缺少某些东西。
【问题讨论】:
-
两个人看着相同的肘部曲线可能会得出关于最佳聚类数的不同结论。另一种测量方法是平均轮廓宽度。还有许多其他措施。在 R 中,您可以使用 NbClust 包及其 NbClust 函数。它将计算多达 30 项措施,并在建议的集群数量上给予您多数票。 (默认情况下,它计算 26 个度量,因为 4 个计算量很大。)使用 factoextra 包中的 fviz_nbclust 函数来可视化结果。一般来说,我会看上下文,而不仅仅是统计指标。
-
@Wolf 感谢您的见解。剪影分数在这里帮助了我,(很高兴我发布了这个),猜猜这些应该被视为启发式方法!
标签: python r cluster-analysis k-means word2vec