【发布时间】:2019-04-24 10:32:36
【问题描述】:
我正在为 Twitter 构建一个事件检测器,它受到垃圾推文的严重影响,因此我计划使用文本相似性算法对推文进行一些过滤。
我考虑过的方法是有一组推文,我将在其中存储不同的推文。首先,我将清除推文中的链接和提及,并检查我正在处理的推文是否与集合中的任何推文的相似度值大于阈值(例如 0.7-0.8)。如果是这样,我将继续迭代并忽略该推文;否则我会将该推文添加到集合中并使用它。
我一直在阅读相关问题的不同答案,但它们仅适用于小型文本语料库,而这将适用于或多或少至少 15.000 条推文的数据集,因此该算法将在每条推文和集合之间进行比较推文 15.000 次。
其他问题也有点老了,可能已经创建了新算法,或者可能已经出现了旧算法的更好实现。
最后,您认为解决垃圾邮件问题的最佳方法是什么?是 Python 原生的还是外部的?
【问题讨论】:
标签: python string text twitter similarity