【问题标题】:k-modes silhouette and elbow plotsk 模式轮廓和肘部图
【发布时间】:2018-04-18 19:26:51
【问题描述】:

我正在尝试对几行(超过 200.000 行)进行聚类,每行都有 150 个二进制属性。为此,我运行了 k-modes 聚类,现在我正在尝试生成轮廓图和肘部方法,以便了解可能最合适的 k 值。

有谁知道我如何在考虑到值不是数字的情况下继续计算两者?例如,我不知道该过程的总成本(通过简单匹配距离测量的元素到其质心之间的距离)是否与 WSS 相似(在误差平方和范围内)。

欢迎任何想法或任何说明性示例代码。

【问题讨论】:

    标签: cluster-analysis


    【解决方案1】:

    剪影可用于任何指标。

    使用,例如,汉明距离或 Jaccard。

    【讨论】:

    • 但是关于总成本与集群内误差平方和的问题呢?
    • 无论如何,肘部图很少奏效。如果你有能力计算它,剪影会更好。您当然可以查看到集群代表的平均汉明距离,当然,您会得到肘部图。
    • 我不知道我是否完全理解你。你的意思是我可以绘制一个正确的肘部图作为到每个代表性集群的平均汉明距离的总和,即对于 k=3,总和(avg(hamming_distance_i)),其中 i=1,2,3.... 这是正确的吗?。
    • 肘部图何时“正确”?它只是某个函数 f 的图,您希望它具有某种形状。
    猜你喜欢
    • 2018-08-14
    • 2012-06-12
    • 2014-11-21
    • 2015-12-10
    • 2018-10-10
    • 2012-11-15
    • 1970-01-01
    • 2021-01-05
    相关资源
    最近更新 更多