【问题标题】:What parameters can I play with using mcl?使用 mcl 可以使用哪些参数?
【发布时间】:2014-03-12 09:38:24
【问题描述】:
我正在使用 mcl 对无向图进行聚类。为此,我选择了连接节点的阈值、每条边的相似性度量以及用于调整图形粒度的膨胀参数。我一直在玩这些参数,但到目前为止,我的集群似乎太大了(我做了可视化,建议最大的集群应该被切割成 2 个或更多集群)。因此,我想知道我可以使用哪些其他参数来改进我的聚类(我目前正在使用 mcl 的 scheme 参数来查看提高准确性是否会有所帮助,但是如果还有其他“更具体”的参数可以例如,帮助获得更小的集群,请告诉我)?
【问题讨论】:
标签:
machine-learning
data-mining
cluster-analysis
mcl
【解决方案1】:
实际上主要有两件事需要考虑。第一个也是最重要的是在 mcl (http://micans.org/mcl/) 本身之外,即网络是如何构建的。我已经在其他地方写过,但我会在这里重复一遍,因为它很重要。
如果您有加权相似度,请选择边缘权重(相似度)截止值
使得网络的拓扑变得信息丰富;即边缘太多
或太少的边缘在
边缘的缺席/存在结构。选择它使得没有边缘连接
您认为非常不同的事物,而边缘将您考虑的事物联系起来
有点相似到很相似。在 mcl 的情况下,动态范围在
“有点相似”和“非常相似”之间的边缘权重应该是,作为一个规则
拇指,一个数量级,即两倍或五倍或十倍,如
反对从 0.9 变化到 1.0。当然,可以给出简单的
网络连接到 mcl,它只会利用边缘的缺失/存在。确保
网络不会变得非常密集 - 非常粗略的经验法则可能是瞄准
如果节点(顶点)的数量为V,即每个节点平均具有sqrt(V) 顺序的邻居,则总边数为V * sqrt(V)。
以上,网络建设,真的很关键,值得推荐
尝试不同的方法。现在,给定一个网络,
实际上只有一个 mcl 参数可以改变:通货膨胀参数(-I 选项)。
一组很好的测试值是1.4, 2, 3, 4, 6。
综上所述,如果你在探索,尝试不同的网络建设方式,
使用您对数据的了解使网络成为有意义的表示,
并将其与尝试不同的 mcl 膨胀值相结合。