k-means 聚类 mahout 中的成本函数值答案

【问题标题】：Cost function value in k-means clustering mahoutk-means 聚类 mahout 中的成本函数值
【发布时间】：2014-05-05 12:11:49
【问题描述】：

如何使用 mahout 计算 k-means 聚类中的成本函数值？

我正在上 Coursera 的机器学习课程。并且有人建议如果我们在 k-means 聚类期间随机初始化聚类，为了计算聚类，我们应该使用不同的初始聚类质心值多次进行。然后我们应该检查成本函数的值，看看哪个迭代成本最小。

您能否建议在 Apache mahout 的 k-means 集群实现中如何计算成本值？

【问题讨论】：

【解决方案1】：

它独立于实现。只需计算从点到各自质心的距离平方和。这是您的成本函数。

【讨论】：

好的，所以我们必须保持集群数量不变。当质心移动小于或等于收敛阈值时，K-Means 将停止。因此，对于最后初始化的 K-Means 的每次执行，我们应该计算每个训练示例与各自质心的距离平方和或标准差。并将它们总结为整个训练集。无论它是最小的，我们都会达到最佳状态。这是正确的理解吗？
如果没有固定的 K，K-means 的定义不明确，所以是的，它必须是固定的。查看维基百科中的方程式：en.wikipedia.org/wiki/K-means_clustering，这正是您的成本函数。如果您能够找到真正的最小值，那么它在 k-means 意义上将是“最优的”（这只是上面的函数，所以它是重言式），尽管一般来说不可能（这个问题是 NP -即使对于 K=2 和 R^2 也很难）。
非常感谢！！由于它的 NP-Hard 很难或不可能说我们是真正的最小值。无论我们得到什么，都是基于所产生成本的最优值。正确吗？
并非不可能，只是“可能很贵”。你总能在 2^N 时间内给出答案。