稀疏矩阵点积仅保留每个结果行的 N 个最大值答案

【问题标题】：Sparse matrix dot product keeping only N-max values per result row稀疏矩阵点积仅保留每个结果行的 N 个最大值
【发布时间】：2015-06-21 05:49:30
【问题描述】：

我有一个非常大的 csr 稀疏矩阵 M。我想得到这个矩阵的点积（M.dot(M.T)），并在结果矩阵R 中每行只保留N 最大值。问题是点积M.dot(M.T) 引发MemoryError。所以我创建了点函数的修改实现，看起来像：

def dot_with_top(m1, m2, top=None):
    if top is not None and top > 0:
        res_rows = []
        for row_id in xrange(m1.shape[0]):

            row = m1[row_id]
            if row.nnz > 0:
                res_row = m1[row_id].dot(m2)
                if res_row.nnz > top:
                    args_ids = np.argsort(res_row.data)[-top:]
                    data = res_row.data[args_ids]
                    cols = res_row.indices[args_ids]
                    res_rows.append(csr_matrix((data, (np.zeros(top), cols)), shape=res_row.shape))
                else:
                    res_rows.append(res_row)
            else:
                res_rows.append(csr_matrix((1, m1.shape[0])))
        return sparse.vstack(res_rows, 'csr')
    return m1.dot(m2)

它工作正常，但有点慢。是否有可能使这个计算更快，或者你知道一些已经存在的方法可以更快？

【问题讨论】：

您似乎正在尝试为一些高维稀疏数据集计算协方差矩阵。你打算用它做什么？根据您的最终目标，可能有一些方法可以避免显式计算协方差矩阵。
@ali_m 我正在为基于项目的协同过滤需求计算余弦相似度矩阵。根据该方法，我每个项目最多只需要 30 个元素。
您能否将其更改为一次处理行块，而不仅仅是一个？使用 1000 行的 10 步应该比 10,000 步快。
我建议进行分析。例如，哪个需要更多时间，row.dot(m2) 行（每个循环只执行一次mi[]），还是收集 30 个值？在每个步骤中创建csr 还是为所有数组收集data,row,col 更好？ vstack 或最终 csr_matrix？查看bmat 的内部结构（这是vstack 使用的）。
@hpaulj 我考虑过块，但方法中最慢的部分是排序。即使我使用块，我也必须对每一行中的项目进行排序。这就是为什么使用块的解决方案没有带来很大的改进

标签： python numpy scipy linear-algebra sparse-matrix

【解决方案1】：

您可以对函数中的行数实现循环，并使用 multiprocessing.Pool() 对象调用此函数。这将使您的循环的执行并行化，并且应该会增加一个很好的加速。

例子：

from multiprocessing import Pool

def f(row_id): 
# define here your function inside the loop
    return vstack(res_rows, 'csr')

if __name__ == '__main__':
    p = Pool(4) # if you have 4 cores in your processor
    p.map(f, xrange(m1.shape[0]))

来源：https://docs.python.org/2/library/multiprocessing.html#using-a-pool-of-workers

请注意，一些 python 实现的函数已经使用了多处理（在 numpy 中很常见），因此在执行此解决方案之前，您应该在脚本运行时检查处理器活动。

【讨论】：

每个进程都需要巨大的M矩阵的副本（用于点积）。这是内存昂贵的解决方案。
我已经实现了这个。我有两个 20GB 阵列，必须做余弦距离（所以你可以用它来做点）。我很快就会向 scipy 发送一个拉取请求。给我几个小时 - 我会把它粘贴到 bin 中。