【问题标题】:Detect near duplicate document using simhash使用 simhash 检测附近重复的文档
【发布时间】:2019-06-21 16:08:09
【问题描述】:

我在github 中找到了这个 python 项目,但是当我尝试使用它来检测近乎重复的文档(例如 json)时,我没有从README.md 文件如何做到这一点?它只显示计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

AND如何使用

查找匹配项
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

到目前为止我所做的尝试: 克隆此 repo 后,我已经安装了所有要求,但是当我尝试运行 setup.pybench.py 时,它会显示

ImportError: 没有名为 simhash.simhash 的模块

这个项目很棒,但我遇到了这个困难,因为 README.md 文件没有很好地描述如何创建文档的哈希值?如何传递哈希?如何检测附近的重复项?。因此,我需要有关如何对文档进行哈希处理的帮助?任何人都可以帮助我了解如何使用 python 使用这个 simhash 来实现近乎重复的文档检测,或者提供任何分步教程链接来实现这个?顺便说一句,我见过that,但这不包含实现它的完整步骤。

【问题讨论】:

    标签: python duplicates simhash


    【解决方案1】:

    试试这个

    pip install git+https://github.com/seomoz/simhash-py.git
    

    还有更多描述 dlecocq 已在问题中发布。下面是那个链接

    https://github.com/seomoz/simhash-py/issues/47

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-11-05
      • 2017-02-22
      • 1970-01-01
      • 2012-09-27
      • 2021-03-12
      • 2010-11-05
      • 2019-01-19
      • 2014-02-14
      相关资源
      最近更新 更多