【发布时间】:2012-01-02 00:58:20
【问题描述】:
我听说过通过聚类对相似数据进行分组。我想知道它在 String 的特定情况下是如何工作的。
我有一张包含超过 100,000 个单词的表格。
我想识别有一些差异的同一个词(例如:house, house!!, hooouse, HoUse, @house, "house", etc...)。
需要什么来识别相似度并将每个单词分组到一个集群中?对此更推荐什么算法?
【问题讨论】:
标签: string cluster-analysis data-mining