【发布时间】:2017-01-13 23:13:06
【问题描述】:
我正在尝试根据它们的相似性(两个词之间)对一些词进行聚类 我的部分数据如下(只是示例“animal.txt”,与邻接矩阵类似)。
cat dog horse ostrich
cat 5 4 3 2
dog 4 5 1 2
horse 3 1 5 4
ostrich 2 2 4 5
数字越大,表示两个词的相似度越高。基于这种格式数据,我想做一个集群。 (例如,如果我想创建 2 个集群,那么结果将是 (cat, dog), (horse,ostrich))。
我尝试使用 CLUTO... 制作一些集群。
首先,我必须在进行 CLUTO 聚类之前重新构建输入文件。 所以,我使用了 doc2mat (http://glaros.dtc.umn.edu/gkhome/files/fs/sw/cluto/doc2mat.html).. 但我不知道如何正确使用它来制作 CLUTO 输入文件(如 mat、标签文件)并且在制作 CLUTO 输入文件之后,然后我如何制作集群根据以上数据?
【问题讨论】:
-
您希望在预处理脚本的输出中看到什么数据?
-
用 doc2mat 预处理后,我想要 mat 文件和列、行文件。这些是 CLUTO 的输入。
标签: perl cluster-analysis hierarchical-clustering cluto