一组文本文档的相似度答案

【问题标题】：Similarity of a group of text documents一组文本文档的相似度
【发布时间】：2017-05-16 15:30:02
【问题描述】：

我正在寻找一种尝试检查的算法

1) 文档中句子的相似度（约 5000 个）

2) 多个文档（约 5000 个）彼此之间的相似度

我需要相同的，因为我正在尝试评估属于特定类别的文本文档/句子是否以任何方式彼此相似。是否有任何现有的方法可以做到这一点。

【问题讨论】：

有（正如@Anony-Mousse 指出的以下几种方法，标准一种是 TF-IDF 归一化然后计算余弦相似度。您尝试过吗？您打算使用什么语言（R， Python等）？你只是想要一个特定方向的指针还是你有更具体的问题？

【解决方案1】：

标准方法是使用余弦相似度和 TF-IDF 归一化。

这有很多变体，您需要尝试最适合您的方法。

【讨论】：