如何使用python通过余弦相似度有效地检索前K相似文档？答案

【问题标题】：How to efficiently retrieve top K-similar document by cosine similarity using python?如何使用python通过余弦相似度有效地检索前K相似文档？
【发布时间】：2016-03-30 13:20:31
【问题描述】：

我正在处理十万 (100,000) 个文档（平均文档长度约为 500 个术语）。对于每个文档，我想通过余弦相似度获得前 k 个（例如 k = 5）相似文档。那么如何高效地通过Python做到这一点。

这是我所做的：

对每个文档，做文本分割，去除停用词，统计词频(tf)
所以我们得到 tf 矩阵，大约 100,000 个文档 * 600000 个术语
做 1 - pairwise_distances(tf_matrix, metric = "cosine")
对于每个文档，获取前 k 个相似文档。

我在 i5-2.5GHz 上运行我的代码，12 小时过去了，但它仍然可以工作。所以我想知道如何优化我的代码或过程。

这是我的想法：

对每个文档，做特征选择，只保留 tf > 1 的词
先进行聚类，然后计算每个聚类内的余弦相似度
因为我只需要前 k 个相似的文档，我需要计算所有成对的余弦相似度吗？
python GPU 编程还是并行编程？

那么，你有什么好主意吗？

非常感谢。

我知道有一个similar question，但这不是我想要的。

更新1

感谢@orange，经过分析，我发现第2步是瓶颈！下面是示例代码：

def construct_dt_matrix():
    dt_matrix = pd.DataFrame(columns=['docid'])
    docid = 0
    for f in files:
        # text segmentation for f
        # remove stop words
        # word count store in cleaned_dict = {'word': tf}
        dt_matrix.loc[docid] = [0] * dt_matrix.shape[1] # add one row, init all 0
        dt_matrix.set_value(docid, 'docid', docid)
        for key, value in cleaned_dict.items():
            if key not in dt_matrix.columns.values:
                dt_matrix[key] = 0 # add one column, init all 0
            dt_matrix.set_value(docid, key, value) # bottleneck
        docid += 1

因此，瓶颈是向 pandas 添加新的行和列。有什么想法吗？

【问题讨论】：

您是否在较小的数据集上尝试过，并且可能使用分析器来查找和优化代码中的热点？看看 RunSnakeRun。
@orange 感谢您的建议，我找到了瓶颈并更新了描述。有什么想法吗？
self.dt_matrix.set_value(docid, key, value) 看起来像一个错误。这会一遍又一遍地设置相同的值（索引docid，在迭代cleaned_dict 和列key 后递增）。
也许阅读一些关于 Pandas 的教程。您对它的理解可能并不准确（他们中的许多人解释了它的工作原理以及为什么它很快，我认为这是必需的）。
对不起，代码是从一个类中提取的，我已经删除了self。循环是正确的，我首先添加一个全为 0 的新行，然后对于每个键，用 value 填充 key 列。像这样添加行和列可能效率低下。无论如何，谢谢。

标签： python algorithm tf-idf feature-selection cosine-similarity

【解决方案1】：

Pandas DataFrames（和底层的 numpy）只有在你一次分配数据数组时才真正快。 set_value 需要调用矩阵中的每个单元格！您可以使用dt_matrix = pd.DataFrame(cleaned_dict)，并且您有一个带有一个函数调用的 DataFrame（忽略 Pandas 内部调用）。

试试吧：

dt_matrix = pd.DataFrame()

for docid, f in enumerate(files):
    dt_matrix_file = pd.DataFrame(cleaned_dict)
    dt_matrix_file['docid'] = docid
    dt_matrix = dt_matrix.append(dt_matrix_file)

这应该快几个数量级。

如果您要求 NaN 单元格为零，则可以执行 dt_matrix.fillna(0)（同样，一次调用而不是可能的 n * m）。

【讨论】：

首先谢谢。我试过DataFrame.append()，确实比set_value快，但没那么快。受您的启发，我们可以先获取所有列名，然后将新行添加到 DataFrame。可能append需要join，所以还需要一些时间。
不仅append 让它更快，还有DataFrame 的创建。并避免迭代字典。