使用马尔可夫聚类算法选择参数答案

【问题标题】：Selecting parameters with Markov Cluster Algorithm使用马尔可夫聚类算法选择参数
【发布时间】：2014-03-07 11:00:33
【问题描述】：

我正在使用mcl 进行聚类。我正在尝试通过调整膨胀参数 I 和我引入的其他几个参数来“优化”关于质量得分的聚类。

我对此优化有疑问：

1) 如果我错了，请纠正我：Cross validation 在我们尝试预测新输入的类别时使用。因此，当所有输入都已知并且我们只是尝试重新组合它们时，这个概念在聚类的上下文中是没有意义的

2) 我计划用我的不同参数集进行实验，然后选择那些给我最好结果的参数。但是，我read aboutclm close 和使用层次聚类并遍历树以找到最佳参数的可能性。我不熟悉层次聚类，但是这种方法在测试不同参数时的表现如何？

【问题讨论】：

标签： data-mining cluster-analysis mcl

【解决方案1】：

至于（1）我同意。至于（2），这是一个非常专业的评论，在开始一般的探索性（集群）分析时不需要考虑。

关于 (1) 的注释。如果您的数据已经分类（每个节点都带有一个标签），那么您可以将此分类视为一个聚类，并使用诸如信息变化或拆分/连接距离之类的标准来查看数据聚类与分类的匹配程度。这在这样的分类可用于一个特定数据集但不适用于其他数据集的情况下可能很有用。那么值得意识到一致性比精确性更重要。也就是说，数据聚类可以是分类的（接近）超聚类或子聚类，并且在这方面是一致的（参见https://stats.stackexchange.com/questions/24961/comparing-clusterings-rand-index-vs-variation-of-information）。

【讨论】：