计算两个多维数组之间的相关系数答案

【问题标题】：Computing the correlation coefficient between two multi-dimensional arrays计算两个多维数组之间的相关系数
【发布时间】：2015-07-20 12:37:15
【问题描述】：

我有两个形状为N X T 和M X T 的数组。我想计算每个可能的行对n 和m 之间的相关系数T（分别来自N 和M）。

最快、最 Pythonic 的方法是什么？（循环遍历N 和M 在我看来既不快也不像pythonic。）我期待答案涉及numpy 和/或scipy。现在我的数组是numpyarrays，但我愿意将它们转换为不同的类型。

我希望我的输出是一个形状为 N X M 的数组。

注意当我说“相关系数”时，我指的是Pearson product-moment correlation coefficient。

这里有一些注意事项：

numpy 函数 correlate 要求输入数组是一维的。
numpy 函数 corrcoef 接受二维数组，但它们必须具有相同的形状。
scipy.stats 函数 pearsonr 要求输入数组是一维的。

【问题讨论】：

那么您是在寻找"same"、''full" 还是默认的np.correlate？您是否编写了解决方案的循环版本？
我在找'valid'。
是的，loopy 版本很简单：for n in range(N):。 . . for m in range(M): 。 . . correlate(arr_one[n, :], arr_two[m, :]) 。 . .

标签： python arrays numpy scipy correlation

【解决方案1】：

两个二维数组之间的相关性（默认为“有效”情况）：

您可以像这样简单地使用矩阵乘法np.dot -

out = np.dot(arr_one,arr_two.T)

两个输入数组的每个成对行组合 (row1,row2) 与默认 "valid" 情况的相关性将对应于每个 (row1,row2) 位置的乘法结果。

两个二维数组的逐行相关系数计算：

def corr2_coeff(A, B):
    # Rowwise mean of input arrays & subtract from input arrays themeselves
    A_mA = A - A.mean(1)[:, None]
    B_mB = B - B.mean(1)[:, None]

    # Sum of squares across rows
    ssA = (A_mA**2).sum(1)
    ssB = (B_mB**2).sum(1)

    # Finally get corr coeff
    return np.dot(A_mA, B_mB.T) / np.sqrt(np.dot(ssA[:, None],ssB[None]))

这是基于How to apply corr2 functions in Multidimentional arrays in MATLAB的这个解决方案

基准测试

本部分将运行时性能与建议的方法与other answer. 中列出的基于generate_correlation_map 和循环pearsonr 的方法进行比较（取自函数test_generate_correlation_map()，末尾没有值正确性验证代码）。请注意，建议的方法的时间安排还包括在开始时检查两个输入数组中的列数是否相等，正如其他答案中所做的那样。接下来列出了运行时。

案例#1：

In [106]: A = np.random.rand(1000, 100)

In [107]: B = np.random.rand(1000, 100)

In [108]: %timeit corr2_coeff(A, B)
100 loops, best of 3: 15 ms per loop

In [109]: %timeit generate_correlation_map(A, B)
100 loops, best of 3: 19.6 ms per loop

案例#2：

In [110]: A = np.random.rand(5000, 100)

In [111]: B = np.random.rand(5000, 100)

In [112]: %timeit corr2_coeff(A, B)
1 loops, best of 3: 368 ms per loop

In [113]: %timeit generate_correlation_map(A, B)
1 loops, best of 3: 493 ms per loop

案例#3：

In [114]: A = np.random.rand(10000, 10)

In [115]: B = np.random.rand(10000, 10)

In [116]: %timeit corr2_coeff(A, B)
1 loops, best of 3: 1.29 s per loop

In [117]: %timeit generate_correlation_map(A, B)
1 loops, best of 3: 1.83 s per loop

另一种循环的 pearsonr based 方法似乎太慢了，但这里是一个小数据大小的运行时 -

In [118]: A = np.random.rand(1000, 100)

In [119]: B = np.random.rand(1000, 100)

In [120]: %timeit corr2_coeff(A, B)
100 loops, best of 3: 15.3 ms per loop

In [121]: %timeit generate_correlation_map(A, B)
100 loops, best of 3: 19.7 ms per loop

In [122]: %timeit pearsonr_based(A, B)
1 loops, best of 3: 33 s per loop

【讨论】：

不错。我没有意识到newaxis 是None 的别名。我认为您在倒数第二行的切片中缺少, : 到sb1。与双循环方法相比，为我们的答案计时会很有趣。
@dbliss [None] 是故意的，将其设为行向量，而将另一个设为具有 [:,None] 的列向量。使广播发挥作用所需的一切。添加了运行时测试，检查一下。
不错的努力，但我不确定您报告的计时结果信息量有多大。例如，test_generate_correlation_map 包括循环方法和我的函数generate_correlation_map。而且，尽管这可能不会有太大的不同，generate_correlation_map 检查两个输入是否具有相同的第二维大小，而您的则没有。也就是说，我认为可以安全地得出结论，您的功能比我的要快。但混合函数可能是最好的——逐行计时信息可以说明这一点。
@dbliss 您介意我是否包含您代码的错误检查部分并更新此解决方案和运行时中提出的代码吗？正如问题一开始所说的那样，我没有费心包括这两个数组的列数与 T 相同。
@dbliss 更新了提议方法的运行时，其中包括您在方法中使用的相同错误检查。错误检查并没有大幅改变之前运行的运行时间，这是意料之中的。另外，我不确定您会在逐行计时信息中寻找什么。你有什么特别的想法吗？

【解决方案2】：

@Divakar 为计算未缩放的相关性提供了一个很好的选择，这正是我最初要求的。

为了计算相关系数，还需要一点：

import numpy as np

def generate_correlation_map(x, y):
    """Correlate each n with each m.

    Parameters
    ----------
    x : np.array
      Shape N X T.

    y : np.array
      Shape M X T.

    Returns
    -------
    np.array
      N X M array in which each element is a correlation coefficient.

    """
    mu_x = x.mean(1)
    mu_y = y.mean(1)
    n = x.shape[1]
    if n != y.shape[1]:
        raise ValueError('x and y must ' +
                         'have the same number of timepoints.')
    s_x = x.std(1, ddof=n - 1)
    s_y = y.std(1, ddof=n - 1)
    cov = np.dot(x,
                 y.T) - n * np.dot(mu_x[:, np.newaxis],
                                  mu_y[np.newaxis, :])
    return cov / np.dot(s_x[:, np.newaxis], s_y[np.newaxis, :])

下面是这个函数的测试，通过了：

from scipy.stats import pearsonr

def test_generate_correlation_map():
    x = np.random.rand(10, 10)
    y = np.random.rand(20, 10)
    desired = np.empty((10, 20))
    for n in range(x.shape[0]):
        for m in range(y.shape[0]):
            desired[n, m] = pearsonr(x[n, :], y[m, :])[0]
    actual = generate_correlation_map(x, y)
    np.testing.assert_array_almost_equal(actual, desired)

【讨论】：

【解决方案3】：

对于那些对计算一维和二维数组之间的皮尔逊相关系数感兴趣的人，我编写了以下函数，其中x 是一维数组，y 是二维数组。

def pearsonr_2D(x, y):
    """computes pearson correlation coefficient
       where x is a 1D and y a 2D array"""

    upper = np.sum((x - np.mean(x)) * (y - np.mean(y, axis=1)[:,None]), axis=1)
    lower = np.sqrt(np.sum(np.power(x - np.mean(x), 2)) * np.sum(np.power(y - np.mean(y, axis=1)[:,None], 2), axis=1))
    
    rho = upper / lower
    
    return rho

示例运行：

>>> x
Out[1]: array([1, 2, 3])

>>> y
Out[2]: array([[ 1,  2,  3],
               [ 6,  7, 12],
               [ 9,  3,  1]])

>>> pearsonr_2D(x, y)
Out[3]: array([ 1.        ,  0.93325653, -0.96076892])

【讨论】：

这对于将一个样本与大型数据库进行比较很有用。我将它用于基于用户的协同过滤。谢谢。
p_value 呢？