Weka，如何使用聚类方法对相似的字符串模式进行分组答案

【问题标题】：Weka, how to use clustering method to group similar string patternsWeka，如何使用聚类方法对相似的字符串模式进行分组
【发布时间】：2017-12-21 15:50:46
【问题描述】：

我正在使用 Weka 的聚类方法对相似的字符串模式进行分组。我首先使用了weka的“stringtowordVector”功能，然后我直接使用了一些聚类方法，但我无法得到正确的结果，有人能给我一些正确的方法来分组这种数据吗？这是我数据的一小部分：

@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk

事实上，这些数据的每一行都代表一个提取的频繁模式（通过数据挖掘算法），每个字母 ac 或 e... 代表一个属性，但是每个模式（每一行）没有相同数量的属性，那么我如何使用聚类方法对相似的模式进行分组呢？非常感谢！！！期待您的回复:)

大卫

【问题讨论】：

也许这可以用Hidden Markov Model来表示，所以如果你确实需要使用Weka，也许可以查看HMMWeka，但我自己从未使用过它（我很难流利这个）

标签： string attributes cluster-analysis weka

【解决方案1】：

每个字符串都是不同的，所以“字符串到词向量”会给它们不同的向量。详情请阅读“词袋模型”。

您可以尝试使用 Levenshtein 距离进行聚类，但我更愿意尝试为您的问题设计一些好的功能。

【讨论】：