提高 Python 中 for 循环的性能（可能使用 numpy 或 numba）答案

【问题标题】：Improve performance of a for loop in Python (possibly with numpy or numba)提高 Python 中 for 循环的性能（可能使用 numpy 或 numba）
【发布时间】：2015-10-16 17:56:17
【问题描述】：

我想提高这个函数中for循环的性能。

import numpy as np
import random

def play_game(row, n=1000000):
    """Play the game! This game is a kind of random walk.

    Arguments:
        row (int[]): row index to use in the p matrix for each step in the
                     walk. Then length of this array is the same as n.

        n (int): number of steps in the random walk
    """
    p = np.array([[ 0.499,  0.499,  0.499],
                  [ 0.099,  0.749,  0.749]])
    X0 = 100
    Y0 = X0 % 3
    X = np.zeros(n)
    tempX = X0
    Y = Y0

    for j in range(n):
        tempX = X[j] = tempX + 2 * (random.random() < p.item(row.item(j), Y)) - 1
        Y = tempX % 3

    return np.r_[X0, X]

难点在于Y的值在每一步都是根据X的值计算出来的和Y然后在下一步更新X 的值。

我想知道是否有一些 numpy 技巧可以产生很大的不同。使用 Numba 是公平的游戏（我尝试过，但没有多大成功）。但是，我不想使用 Cython。

【问题讨论】：

如果您使用的是 Python2，使用 xrange() 而不是 range() 可能会有所帮助。
我正在使用 Python 3。

标签： python performance numpy vectorization numba

【解决方案1】：

快速观察告诉我们，函数代码中的迭代之间存在数据依赖关系。现在，有不同类型的数据依赖关系。您正在查看的数据依赖性类型是索引依赖性，即任何迭代中的数据选择取决于先前的迭代计算。这种依赖似乎很难在迭代之间追踪，所以这篇文章并不是真正的矢量化解决方案。相反，我们会尝试尽可能多地预先计算将在循环中使用的值。基本思想是在循环内做最少的工作。

以下是关于我们如何进行预计算从而获得更有效解决方案的简要说明：

对于每次迭代，您都在计算一个随机数。您可以将其替换为可以在循环之前设置的随机数组，因此您也可以预先计算这些随机值。
根据迄今为止的预计算值，您将拥有p 中所有行的列索引。请注意，这些列索引将是一个包含所有可能列索引的大型 ndarray，并且在我们的代码中，只会根据每次迭代计算选择一个。使用每次迭代的列索引，您可以递增或递减 X0 以获得每次迭代的输出。

实现看起来像这样 -

randarr = np.random.rand(n)
p = np.array([[ 0.499,  0.419,  0.639],
              [ 0.099,  0.749,  0.319]])

def play_game_partvect(row,n,randarr,p):

    X0 = 100
    Y0 = X0 % 3

    signvals = 2*(randarr[:,None] < p[row]) - 1
    col_idx = (signvals + np.arange(3)) % 3

    Y = Y0
    currval = X0
    out = np.empty(n+1)
    out[0] = X0
    for j in range(n):
        currval = currval + signvals[j,Y]
        out[j+1] = currval
        Y = col_idx[j,Y]

    return out

为了验证原始代码，您可以像这样修改原始代码 -

def play_game(row,n,randarr,p):
    X0 = 100
    Y0 = X0 % 3
    X = np.zeros(n)
    tempX = X0
    Y = Y0
    for j in range(n):
        tempX = X[j] = tempX + 2 * (randarr[j] < p.item(row.item(j), Y)) - 1
        Y = tempX % 3
    return np.r_[X0, X]

请注意，由于此代码预先计算了这些随机值，因此这已经可以使您对问题中的代码有很好的加速。

运行时测试和输出验证 -

In [2]: # Inputs
   ...: n = 1000
   ...: row = np.random.randint(0,2,(n))
   ...: randarr = np.random.rand(n)
   ...: p = np.array([[ 0.499,  0.419,  0.639],
   ...:               [ 0.099,  0.749,  0.319]])
   ...: 

In [3]: np.allclose(play_game_partvect(row,n,randarr,p),play_game(row,n,randarr,p))
Out[3]: True

In [4]: %timeit play_game(row,n,randarr,p)
100 loops, best of 3: 11.6 ms per loop

In [5]: %timeit play_game_partvect(row,n,randarr,p)
1000 loops, best of 3: 1.51 ms per loop

In [6]: # Inputs
   ...: n = 10000
   ...: row = np.random.randint(0,2,(n))
   ...: randarr = np.random.rand(n)
   ...: p = np.array([[ 0.499,  0.419,  0.639],
   ...:               [ 0.099,  0.749,  0.319]])
   ...: 

In [7]: np.allclose(play_game_partvect(row,n,randarr,p),play_game(row,n,randarr,p))
Out[7]: True

In [8]: %timeit play_game(row,n,randarr,p)
10 loops, best of 3: 116 ms per loop

In [9]: %timeit play_game_partvect(row,n,randarr,p)
100 loops, best of 3: 14.8 ms per loop

因此，我们看到了大约 7.5x+ 的加速，还不错！

【讨论】：

不使用col_idx而只在循环中计算Y = currval %3会更快。此外，在 for 循环中，使用 .item() 比使用 [] 下标更快，因为返回的对象是 Python 标量而不是 numpy 标量，而使用 Python 标量的算术运算更快。