逐字比较 2 段文本或通过它们的哈希值答案

【问题标题】：Comparing 2 pieces of text word by word or by their hashes逐字比较 2 段文本或通过它们的哈希值
【发布时间】：2017-05-23 17:59:15
【问题描述】：

我有一个 python 脚本定期抓取网页列表中的 cmets 并将它们插入数据库。但它只插入一条评论，它还没有在数据库中。将每个评论的哈希值及其正文存储起来以便在下次我需要检查它是否已被插入时能够更快地查找它有多可行？而不是只讲述他们的身体并逐字比较？如果它更快，我应该使用什么样的哈希？ Md5 还是 ....？

平均评论约 1000 字。我知道即使是单个字符差异也会导致不同的哈希值，这没关系。

【问题讨论】：

标签： python algorithm python-3.x hash text-processing

【解决方案1】：

您可以使用Jaccard Index 之类的名称。这甚至可以让你搜索部分匹配，你可以设置一个阈值来拒绝或选择匹配（即相似的文本）

您甚至可以寻找 Minhashing，这将是一种节省空间的 Jaccard 距离方法，您将受益于匹配一些字符差异并产生相同的存储桶（查看 Locality Sensitive Hashing）。不过，您必须设置一个阈值，精度/召回问题是您必须解决的问题。

【讨论】：

问题不是我能用什么，而是我应该用什么。