【发布时间】:2018-04-18 19:26:51
【问题描述】:
我正在尝试对几行(超过 200.000 行)进行聚类,每行都有 150 个二进制属性。为此,我运行了 k-modes 聚类,现在我正在尝试生成轮廓图和肘部方法,以便了解可能最合适的 k 值。
有谁知道我如何在考虑到值不是数字的情况下继续计算两者?例如,我不知道该过程的总成本(通过简单匹配距离测量的元素到其质心之间的距离)是否与 WSS 相似(在误差平方和范围内)。
欢迎任何想法或任何说明性示例代码。
【问题讨论】:
标签: cluster-analysis