获取文本与Python中一组文本之间的相似度答案

【问题标题】：Get similarity between text and the texts of a set in Python获取文本与Python中一组文本之间的相似度
【发布时间】：2019-04-24 10:32:36
【问题描述】：

我正在为 Twitter 构建一个事件检测器，它受到垃圾推文的严重影响，因此我计划使用文本相似性算法对推文进行一些过滤。

我考虑过的方法是有一组推文，我将在其中存储不同的推文。首先，我将清除推文中的链接和提及，并检查我正在处理的推文是否与集合中的任何推文的相似度值大于阈值（例如 0.7-0.8）。如果是这样，我将继续迭代并忽略该推文；否则我会将该推文添加到集合中并使用它。

我一直在阅读相关问题的不同答案，但它们仅适用于小型文本语料库，而这将适用于或多或少至少 15.000 条推文的数据集，因此该算法将在每条推文和集合之间进行比较推文 15.000 次。

其他问题也有点老了，可能已经创建了新算法，或者可能已经出现了旧算法的更好实现。

最后，您认为解决垃圾邮件问题的最佳方法是什么？是 Python 原生的还是外部的？

【问题讨论】：

【解决方案1】：

要找到相似度，您可以使用tf-idf 向量，然后计算它们之间的余弦相似度，但是要比较大量向量，因此您可以对数据进行聚类并为每个聚类找到一个中心向量，因此您只需要将您的新推文与中心向量进行比较，而不是全部。

【讨论】：