【发布时间】:2014-01-26 17:47:31
【问题描述】:
我已经从 https://github.com/percyliang/brown-cluster 运行了 brown-clustering 算法,还运行了一个 python 实现 https://github.com/mheilman/tan-clustering。他们都为每个唯一令牌提供某种二进制和另一个整数。例如:
0 the 6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2
二进制和整数是什么意思?
从第一个link开始,二进制被称为bit-string,见http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
但是我如何从输出中得知dog and mouse and cat 是一个集群而the and chased 不在同一个集群中?
【问题讨论】:
-
在您提供的第一个链接中,它说每一行是:
!! -
这是什么意思?簇表示为位串?
-
您能否详细说明您想要分类的内容?在这种情况下,我可以尝试寻找一些参考资料。否则,可能没有任何通用程序,我想这更多的是关于专家知识和/或预定义的措施。
-
我需要从未注释的语料库中提取语义相关的聚类。
-
当然,这就是聚类的想法,但那些层次算法只是给你层次。在您给出的示例中,不清楚 dog mouse 和 cat 是否应该在一个集群中。这仅取决于请求的粒度级别。
标签: python algorithm machine-learning nlp cluster-analysis