在 numpy 中广播
如果您不受内存限制,优化numpy 中的嵌套循环的第一步是使用广播并以矢量化方式执行操作:
import numpy as np
def mb_r(forecasted_array, observed_array):
"""Returns the Mielke-Berry R value."""
assert len(observed_array) == len(forecasted_array)
total = np.abs(forecasted_array[:, np.newaxis] - observed_array).sum() # Broadcasting
return 1 - (mae(forecasted_array, observed_array) * forecasted_array.size ** 2 / total[0])
但在这种情况下,循环发生在 C 而不是 Python 中,它涉及到分配一个大小为 (N, N) 的数组。
广播不是万能的,尝试展开内循环
如上所述,广播意味着巨大的内存开销。所以它应该小心使用,它并不总是正确的方法。虽然您可能会有在任何地方使用它的第一印象 - 不要。不久前,我还对这个事实感到困惑,请参阅我的问题Numpy ufuncs speed vs for loop speed。不要太冗长,我会在你的例子中展示这个:
import numpy as np
# Broadcast version
def mb_r_bcast(forecasted_array, observed_array):
return np.abs(forecasted_array[:, np.newaxis] - observed_array).sum()
# Inner loop unrolled version
def mb_r_unroll(forecasted_array, observed_array):
size = len(observed_array)
total = 0.
for i in range(size): # There is only one loop
total += np.abs(forecasted_array - observed_array[i]).sum()
return total
小数组(广播速度更快)
forecasted = np.random.rand(100)
observed = np.random.rand(100)
%timeit mb_r_bcast(forecasted, observed)
57.5 µs ± 359 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
%timeit mb_r_unroll(forecasted, observed)
1.17 ms ± 2.53 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
中等大小的数组(相等)
forecasted = np.random.rand(1000)
observed = np.random.rand(1000)
%timeit mb_r_bcast(forecasted, observed)
15.6 ms ± 208 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit mb_r_unroll(forecasted, observed)
16.4 ms ± 13.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
大型数组(广播速度较慢)
forecasted = np.random.rand(10000)
observed = np.random.rand(10000)
%timeit mb_r_bcast(forecasted, observed)
1.51 s ± 18 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit mb_r_unroll(forecasted, observed)
377 ms ± 994 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
如您所见,对于小型阵列,广播版本比展开版本快 20 倍,对于中型阵列,它们相当相等,但对于大型阵列它慢了 4 倍,因为内存开销正在付出代价高昂的代价。
Numba jit 和并行化
另一种方法是使用numba 及其魔法强大的@jit 函数装饰器。在这种情况下,只需对初始代码稍作修改。此外,要使循环并行,您应该将 range 更改为 prange 并提供 parallel=True 关键字参数。在下面的 sn-p 中,我使用了与 @jit(nopython=True) 相同的 @njit 装饰器:
from numba import njit, prange
@njit(parallel=True)
def mb_r_njit(forecasted_array, observed_array):
"""Returns the Mielke-Berry R value."""
assert len(observed_array) == len(forecasted_array)
total = 0.
size = len(forecasted_array)
for i in prange(size):
observed = observed_array[i]
for j in prange(size):
total += abs(forecasted_array[j] - observed)
return 1 - (mae(forecasted_array, observed_array) * size ** 2 / total)
您没有提供mae 函数,但要在njit 模式下运行代码,您还必须装饰mae 函数,或者如果它是一个数字,则将其作为参数传递给jitted 函数。
其他选项
Python 科学生态系统非常庞大,我只提一些其他等效的加速选项:Cython、Nuitka、Pythran、bottleneck 等等。或许你对gpu computing感兴趣,但这其实是另外一回事了。
时间
在我的电脑上,不幸的是旧电脑,时间是:
import numpy as np
import numexpr as ne
forecasted_array = np.random.rand(10000)
observed_array = np.random.rand(10000)
初始版本
%timeit mb_r(forecasted_array, observed_array)
23.4 s ± 430 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
numexpr
%%timeit
forecasted_array2d = forecasted_array[:, np.newaxis]
ne.evaluate('sum(abs(forecasted_array2d - observed_array))')[()]
784 ms ± 11.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
广播版
%timeit mb_r_bcast(forecasted, observed)
1.47 s ± 4.13 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
内循环展开版
%timeit mb_r_unroll(forecasted, observed)
389 ms ± 11.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
numba njit(parallel=True) 版本
%timeit mb_r_njit(forecasted_array, observed_array)
32 ms ± 4.05 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
可以看出njit的方法比你的初始方案快730x,也比numexpr的方案快24.5x(也许你需要Intel的Vector数学库来加速它)。与初始版本相比,内循环展开的简单方法也可以让您的速度提高 60 倍。我的规格是:
Intel(R) Core(TM)2 四核 CPU Q9550 2.83GHz
Python 3.6.3
numpy 1.13.3
numba 0.36.1
numexpr 2.6.4
最后说明
我对您的短语感到惊讶“我听说(尚未测试)使用 python for 循环索引 numpy 数组非常慢。”所以我测试:
arr = np.arange(1000)
ls = arr.tolistist()
%timeit for i in arr: pass
69.5 µs ± 282 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
%timeit for i in ls: pass
13.3 µs ± 81.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%timeit for i in range(len(arr)): arr[i]
167 µs ± 997 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
%timeit for i in range(len(ls)): ls[i]
90.8 µs ± 1.07 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
事实证明你是对的。迭代列表的速度要快 2-5 倍。当然,这些结果必须带有一定的讽刺意味:)