【发布时间】:2017-12-21 15:50:46
【问题描述】:
我正在使用 Weka 的聚类方法对相似的字符串模式进行分组。我首先使用了weka的“stringtowordVector”功能,然后我直接使用了一些聚类方法,但我无法得到正确的结果,有人能给我一些正确的方法来分组这种数据吗?这是我数据的一小部分:
@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk
事实上,这些数据的每一行都代表一个提取的频繁模式(通过数据挖掘算法),每个字母 ac 或 e... 代表一个属性,但是每个模式(每一行)没有相同数量的属性,那么我如何使用聚类方法对相似的模式进行分组呢?非常感谢!!!期待您的回复:)
大卫
【问题讨论】:
-
也许这可以用Hidden Markov Model来表示,所以如果你确实需要使用Weka,也许可以查看HMMWeka,但我自己从未使用过它(我很难流利这个)
标签: string attributes cluster-analysis weka