【发布时间】:2021-08-30 07:03:21
【问题描述】:
作为练习,我想通过 Hamming 或 Levenshtein 距离对一组英语单词进行聚类。如果是汉明距离,则它们都必须具有相同的长度(或填充到相同的长度),但对于 Levenshtein 距离而言并非如此。
我通常使用scikit-learn,它有很多聚类算法,但似乎没有一个接受分类变量数组,这是表示字符串的最明显方式。
我可以预先计算一个巨大的距离矩阵,但如果字符串的数量很大,这是不现实的。
如何有效地对字符串进行聚类?
【问题讨论】:
-
这套 N 是多少?这决定了 NxN 距离矩阵的大小,无论它是否庞大,即是否适合内存。
-
@smci 大约 100,000 个字符串。
标签: python cluster-analysis levenshtein-distance hamming-distance