【发布时间】:2015-08-31 10:31:14
【问题描述】:
我有一个包含相对较小字符串(1-2 个单词)的约 200k 个条目的单元格数组。我正在尝试根据字符串相似性对它们进行聚类。我尝试使用 levenshtein 距离来创建距离矩阵(使用循环将每个字符串与所有其他字符串进行比较)以在其上使用分层或 kmeans 聚类,但是一旦形成距离矩阵(特别是在MATLAB)。如果有人有任何想法或建议,将不胜感激。
【问题讨论】:
我有一个包含相对较小字符串(1-2 个单词)的约 200k 个条目的单元格数组。我正在尝试根据字符串相似性对它们进行聚类。我尝试使用 levenshtein 距离来创建距离矩阵(使用循环将每个字符串与所有其他字符串进行比较)以在其上使用分层或 kmeans 聚类,但是一旦形成距离矩阵(特别是在MATLAB)。如果有人有任何想法或建议,将不胜感激。
【问题讨论】:
它仅使用 means 和与 mean 的平方偏差(=variance)。
层次聚类在距离矩阵上效果很好。有关如何传递预先计算的距离矩阵,请参阅文档。
【讨论】: