如何使用 sklearn CCA 模块计算相关系数？答案

【问题标题】：How to calculate correlation coefficients using sklearn CCA module?如何使用 sklearn CCA 模块计算相关系数？
【发布时间】：2021-11-17 02:53:53
【问题描述】：

我需要使用 CCA 模块测量特征向量之间的相似性。我看到 sklearn 有一个很好的 CCA 模块可用：https://scikit-learn.org/stable/modules/generated/sklearn.cross_decomposition.CCA.html

在我查看的不同论文中，我看到使用 CCA 测量相似度的方法是计算相关系数的平均值，例如在以下笔记本示例中所做的：https://github.com/google/svcca/blob/1f3fbf19bd31bd9b76e728ef75842aa1d9a4cd2b/tutorials/001_Introduction.ipynb

如何使用sklearn CCA模块计算相关系数（如笔记本所示）？

from sklearn.cross_decomposition import CCA
import numpy as np

U = np.random.random_sample(500).reshape(100,5)
V = np.random.random_sample(500).reshape(100,5)

cca = CCA(n_components=1)
cca.fit(U, V)

cca.coef_.shape                   # (5,5)

U_c, V_c = cca.transform(U, V)

U_c.shape                         # (100,1)
V_c.shape                         # (100,1)

这是 sklearn CCA 模块的示例，但我不知道如何从中检索相关系数。

【问题讨论】：

一旦我得到它，实现最终会在这里：github.com/brando90/ultimate-utils/issues/10我认为可以使用cca方向（即线性组合学习a, b或w1, w2大小[n, p1], [n, p2]）如下对于第 k 个相关性：correlation_k = pearson_correlation(a_k, b_k)。可能可以通过诸如a^T b 之类的矩阵乘法获得。或者使用一些奇异值的东西......如果 scipy 给我们的话。顺便说一句，我注意到 scipy 不是很快，所以如果它实际上除了调试之外真的有用的话。
你试过用numpy函数numpy.corrcoefnumpy.org/doc/stable/referencehttps://numpy.org/doc/stable/…
@t2solve 链接已损坏。
再次抱歉； numpy.org/doc/stable/reference/generated/numpy.corrcoef.html
你检查源代码了吗？ github.com/scikit-learn/scikit-learn/blob/0d378913b/sklearn/…

标签： python scikit-learn

【解决方案1】：

参考您提供的notebook，它是以下两篇论文的支持工件并实现了以下两篇论文中的想法

"SVCCA: Singular Vector Canonical Correlation Analysis for Deep Learning Dynamics and Interpretability"。神经信息处理系统 (NeurIPS) 2017
"Insights on Representational Similarity in Deep Neural Networks with Canonical Correlation"。神经信息处理系统 (NeurIPS) 2018

那里的作者计算了 50 = min(A_fake 神经元，B_fake 神经元) 分量，并绘制了每个分量（即 50）的变换向量之间的相关性。

在以下代码的帮助下，使用sklearn CCA，我正在尝试重现他们的Toy Example。正如我们将看到的相关图匹配。他们在笔记本中使用的健全性检查非常方便——它也与这段代码无缝地通过了。

import numpy as np
from matplotlib import pyplot as plt
from sklearn.cross_decomposition import CCA

# rows contain the number of samples for CCA and the number of rvs goes in columns
X = np.random.randn(2000, 100)
Y = np.random.randn(2000, 50)

# num of components
n_comps = min(X.shape[1], Y.shape[1])
cca = CCA(n_components=n_comps)
cca.fit(X, Y)
X_c, Y_c = cca.transform(X, Y)

# calculate and plot the correlations of all components
corrs = [np.corrcoef(X_c[:, i], Y_c[:, i])[0, 1] for i in range(n_comps)]    
plt.plot(corrs)
plt.xlabel('cca_idx')
plt.ylabel('cca_corr')
plt.show()

输出：

对于完整性检查，将 Y 数据矩阵替换为 X 的缩放可逆变换并重新运行代码。

Y = np.dot(X, np.random.randn(100, 100))

输出：

【讨论】：

您知道如何将其扩展到具有 2 个以上视图（例如 3 个）的多视图 CCA（MCCA）吗？在哪里转换 3 个变量：X_c、Y_c、Z_c = mcca.transform(X, Y, Z)，如何计算它们的相关性？有可能吗？