【发布时间】:2010-12-21 20:26:42
【问题描述】:
我写了一个方法来计算两个数组之间的余弦距离:
def cosine_distance(a, b):
if len(a) != len(b):
return False
numerator = 0
denoma = 0
denomb = 0
for i in range(len(a)):
numerator += a[i]*b[i]
denoma += abs(a[i])**2
denomb += abs(b[i])**2
result = 1 - numerator / (sqrt(denoma)*sqrt(denomb))
return result
在大型阵列上运行它可能会非常慢。此方法是否有运行速度更快的优化版本?
更新:我已经尝试了迄今为止的所有建议,包括 scipy。这是要击败的版本,结合了 Mike 和 Steve 的建议:
def cosine_distance(a, b):
if len(a) != len(b):
raise ValueError, "a and b must be same length" #Steve
numerator = 0
denoma = 0
denomb = 0
for i in range(len(a)): #Mike's optimizations:
ai = a[i] #only calculate once
bi = b[i]
numerator += ai*bi #faster than exponent (barely)
denoma += ai*ai #strip abs() since it's squaring
denomb += bi*bi
result = 1 - numerator / (sqrt(denoma)*sqrt(denomb))
return result
【问题讨论】:
-
a 和 b 数组是复数吗?
-
到目前为止我已经尝试了所有的建议,目前 Mike Dunlavey 的精简现有代码的建议已经给出了最好的结果。我想我会留下这个问题,以防有其他解决问题的策略,但大多数建议最终实际上比原始代码运行得慢,所以 Python 必须在动态优化方面做得很好。还有@gnibbler,我没有使用任何复数。
-
我不明白你为什么要先练腹肌再练。
-
我刚刚进行了一个快速测试,当列表大约有 1000 个元素时,使用 numpy 会更快。
-
小数组的 numpy 速度较慢的原因是转换为 numpy 数组的开销。
标签: python arrays optimization distance