使用 simhash 检测附近重复的文档答案

【问题标题】：Detect near duplicate document using simhash使用 simhash 检测附近重复的文档
【发布时间】：2019-06-21 16:08:09
【问题描述】：

我在github 中找到了这个 python 项目，但是当我尝试使用它来检测近乎重复的文档（例如 json）时，我没有从README.md 文件如何做到这一点？它只显示计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

AND如何使用

查找匹配项

import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

到目前为止我所做的尝试： 克隆此 repo 后，我已经安装了所有要求，但是当我尝试运行 setup.py 或 bench.py 时，它会显示

ImportError: 没有名为 simhash.simhash 的模块

这个项目很棒，但我遇到了这个困难，因为 README.md 文件没有很好地描述如何创建文档的哈希值？，如何传递哈希？和如何检测附近的重复项？。因此，我需要有关如何对文档进行哈希处理的帮助？任何人都可以帮助我了解如何使用 python 使用这个 simhash 来实现近乎重复的文档检测，或者提供任何分步教程链接来实现这个？顺便说一句，我见过that，但这不包含实现它的完整步骤。

【问题讨论】：

标签： python duplicates simhash

【解决方案1】：

试试这个

pip install git+https://github.com/seomoz/simhash-py.git

还有更多描述 dlecocq 已在问题中发布。下面是那个链接

https://github.com/seomoz/simhash-py/issues/47

【讨论】：