【问题标题】:Weka, how to use clustering method to group similar string patternsWeka,如何使用聚类方法对相似的字符串模式进行分组
【发布时间】:2017-12-21 15:50:46
【问题描述】:

我正在使用 Weka 的聚类方法对相似的字符串模式进行分组。我首先使用了weka的“stringtowordVector”功能,然后我直接使用了一些聚类方法,但我无法得到正确的结果,有人能给我一些正确的方法来分组这种数据吗?这是我数据的一小部分:

@relation ponds
@ATTRIBUTE LCC string
@data
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj
acehiadfhjacehikkkkkkkkkkk

事实上,这些数据的每一行都代表一个提取的频繁模式(通过数据挖掘算法),每个字母 ac 或 e... 代表一个属性,但是每个模式(每一行)没有相同数量的属性,那么我如何使用聚类方法对相似的模式进行分组呢?非常感谢!!!期待您的回复:)

大卫

【问题讨论】:

  • 也许这可以用Hidden Markov Model来表示,所以如果你确实需要使用Weka,也许可以查看HMMWeka,但我自己从未使用过它(我很难流利这个)

标签: string attributes cluster-analysis weka


【解决方案1】:

每个字符串都是不同的,所以“字符串到词向量”会给它们不同的向量。详情请阅读“词袋模型”。

您可以尝试使用 Levenshtein 距离进行聚类,但我更愿意尝试为您的问题设计一些好的功能。

【讨论】:

    猜你喜欢
    • 2012-01-27
    • 2011-09-03
    • 1970-01-01
    • 1970-01-01
    • 2015-10-07
    • 1970-01-01
    • 2021-04-19
    • 1970-01-01
    • 2018-05-28
    相关资源
    最近更新 更多