【问题标题】:Cost function value in k-means clustering mahoutk-means 聚类 mahout 中的成本函数值
【发布时间】:2014-05-05 12:11:49
【问题描述】:

如何使用 mahout 计算 k-means 聚类中的成本函数值?

我正在上 Coursera 的机器学习课程。并且有人建议如果我们在 k-means 聚类期间随机初始化聚类,为了计算聚类,我们应该使用不同的初始聚类质心值多次进行。然后我们应该检查成本函数的值,看看哪个迭代成本最小。

您能否建议在 Apache mahout 的 k-means 集群实现中如何计算成本值?

【问题讨论】:

    标签: algorithm mahout k-means


    【解决方案1】:

    它独立于实现。只需计算从点到各自质心的距离平方和。这是您的成本函数。

    【讨论】:

    • 好的,所以我们必须保持集群数量不变。当质心移动小于或等于收敛阈值时,K-Means 将停止。因此,对于最后初始化的 K-Means 的每次执行,我们应该计算每个训练示例与各自质心的距离平方和或标准差。并将它们总结为整个训练集。无论它是最小的,我们都会达到最佳状态。这是正确的理解吗?
    • 如果没有固定的 K,K-means 的定义不明确,所以是的,它必须是固定的。查看维基百科中的方程式:en.wikipedia.org/wiki/K-means_clustering,这正是您的成本函数。如果您能够找到真正的最小值,那么它在 k-means 意义上将是“最优的”(这只是上面的函数,所以它是重言式),尽管一般来说不可能(这个问题是 NP -即使对于 K=2 和 R^2 也很难)。
    • 非常感谢!!由于它的 NP-Hard 很难或不可能说我们是真正的最小值。无论我们得到什么,都是基于所产生成本的最优值。正确吗?
    • 并非不可能,只是“可能很贵”。你总能在 2^N 时间内给出答案。
    猜你喜欢
    • 2016-02-04
    • 2020-10-27
    • 2019-05-04
    • 1970-01-01
    • 2015-04-11
    • 2012-01-24
    • 2016-08-14
    • 2018-01-18
    • 2021-08-19
    相关资源
    最近更新 更多