【发布时间】:2013-03-07 05:10:48
【问题描述】:
我需要使用 ELKI 根据编辑距离/Levenshtein 距离对大量字符串进行聚类。由于数据集太大,我想避免使用基于文件的预计算距离矩阵。我该怎么做
(a) 从文件中加载 ELKI 中的字符串数据(仅“标签”)?
(b) 实现一个访问标签的距离函数(扩展AbstractDBIDDistanceFunction,但是如何获取标签?)
一些代码 sn-ps 或示例输入文件会有所帮助。
【问题讨论】:
标签: string cluster-analysis edit-distance elki