【发布时间】:2021-04-19 04:40:41
【问题描述】:
我需要根据它们的相似性对 500K+ 字符串进行聚类。
我已经计算了它们的成对 Levenshtein 距离并制作了一个稀疏相似矩阵。该矩阵包含二进制相似性:小距离的值设置为 1.0,其他的值为 0.0。
我不知道哪种聚类对我有好处。我事先不知道聚类的数量,但它可能相当大,因为相似度矩阵非常稀疏(大约 0.1% 的值是非零的)。
【问题讨论】:
-
为了确定,您已经计算了 500K 字符串的成对 LD,这意味着您有一个 500K x 500K 大小的矩阵?
-
那种。 LD 被计算但不被存储。我只使用
scipy.sparse.lil_matrix存储了稀疏二进制相似度矩阵。