【发布时间】:2011-05-13 14:34:47
【问题描述】:
我想通过诸如 q-gram 距离或简单的“袋子距离”或 Python 中的 Levenshtein 距离之类的东西对约 100,000 个短字符串进行聚类。我打算填写一个距离矩阵(100,000 选择 2 个比较),然后使用pyCluster 进行层次聚类。但我什至在起步之前就遇到了一些记忆问题。例如,距离矩阵对于 numpy 来说太大了。
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
这看起来是否合理?还是我注定要在这项任务中出现记忆问题?感谢您的帮助。
【问题讨论】:
-
100亿是一个很大的数字。
-
我正在考虑解决这个有趣问题的方法,但我错过了一些信息。请详细说明您到底要完成什么,以及原因和可能的假设/限制。这里有 2 个特别的问题。 1) 你可以在你的分析中复制字符串吗? 2)你真的需要所有 2×2 的距离,还是说对于给定的字符串,只有一小部分距离就足够了?干杯。
标签: python numpy cluster-analysis levenshtein-distance