【发布时间】:2015-12-20 05:13:58
【问题描述】:
我有两个包含二进制值的长度相同的 numpy 数组
import numpy as np
a=np.array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0])
b=np.array([1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1])
我想尽可能快地计算它们之间的汉明距离,因为我要进行数百万次这样的距离计算。
一个简单但缓慢的选择是这样的(取自维基百科):
%timeit sum(ch1 != ch2 for ch1, ch2 in zip(a, b))
10000 loops, best of 3: 79 us per loop
受堆栈溢出的一些答案的启发,我提出了更快的选项。
%timeit np.sum(np.bitwise_xor(a,b))
100000 loops, best of 3: 6.94 us per loop
%timeit len(np.bitwise_xor(a,b).nonzero()[0])
100000 loops, best of 3: 2.43 us per loop
我想知道是否有更快的方法来计算这个,可能使用 cython?
【问题讨论】:
-
示例数组
a和b的长度和你的真实数据长度一样吗? -
您是在计算数组数组内的所有成对距离,还是两个数组数组之间的距离?您也许可以使用
scipy.spatial.distance.cdist或scipy.spatial.distance.pdist -
@WarrenWeckesser 它们的顺序相同,是的。根据某些参数设置,它们的长度将在 20 到 100 之间。
-
scipy/spatial/distance.py hamming(u, v): ...
return (u != v).mean()。另请参阅bitarray。
标签: python arrays numpy cython hamming-distance