【发布时间】:2016-10-18 19:57:48
【问题描述】:
我需要对一组二维数据进行一些聚类分析(我可能会在此过程中添加额外的维度)。
分析本身将构成输入可视化的数据的一部分,而不是输入到另一个流程(例如Radial Basis Function Networks)。
为此,我想找到一组主要“看起来正确”的集群,而不是阐明一些隐藏的模式。
我的直觉是,k-means 将是一个很好的起点,但是找到合适数量的集群来运行算法是有问题的。
我遇到的问题是这样的:
如何确定 k 的“最佳”值,以使形成的集群稳定且可直观验证?
问题:
- 假设这不是 NP 完全的,那么找到一个好的 k 的时间复杂度是多少。 (可能报告了运行 k-means 算法的次数)。
- k-means 是解决此类问题的良好起点吗?如果是这样,您会推荐哪些其他方法。一个由轶事/经验支持的具体示例是 maxi-bon。
- 您会推荐哪些捷径/近似值来提高性能。
【问题讨论】:
标签: algorithm language-agnostic artificial-intelligence cluster-analysis complexity-theory