【发布时间】:2012-11-19 15:04:21
【问题描述】:
我有 n 个向量,每个向量都有 m 个元素(实数)。我想找到所有对中余弦相似度最大的对。
直接的解决方案需要 O(n2m) 时间。
有没有更好的解决方案?
更新
Cosine similarity / distance and triangle equation 启发我可以用“弦长”代替“余弦相似度” 失去精度,但提高了很多速度。 (有很多解决度量空间最近邻的现有解决方案,如ANN)
【问题讨论】:
-
@hs3180 你的向量元素有什么限制吗?例如。它们总是二进制(0 或 1)吗?
-
@robmayoff 不,元素是真实的(浮动)
-
@robmayoff 如果元素是二进制的,这个问题就相当于找到一对01字符串中位数最多的。
标签: algorithm math cosine-similarity