【发布时间】:2016-09-09 19:14:15
【问题描述】:
我有许多文档已经转换为文本。许多这些文件是收获的网页。 Apache Tika 用于其中一些(如果有人关心的话)。
我想要一个 Java 库,我可以使用它来查找附近的重复项 (NDD)。我可以为您提供指向不同方法和文档的链接,但是,这个问题专门关于 TextProfileSignature 的使用。也就是说,如果我从另一个现有包中遗漏了一些明显的东西,那么我对 Near Duplicate Detection 还是比较陌生。
我首先在 SOLR 中找到了 TextProfileSignature 类
据说算法取自Clutch
org.apache.nutch.crawl.TextProfileSignature
然后混淆视听,看起来实现实际上可以直接在 GitHub 上获得
https://github.com/casetext/fnv-text-profile-signature
我很清楚,如果我安装 SOLR/Lucene,当我将文档输入 SOLR 时,我可以将其配置为运行 NDD 并填充文本配置文件签名。对于我的使用,我希望不通过 SOLR/Lucene 运行我的文档,而是简单地生成文本配置文件签名。
在提供的包之外,我找不到任何使用此实例的任何示例代码。在准备问这个问题时,我找到了 GITHUB 代码,看起来这可能是我最好的方法,因为它看起来会提供一个独立的包,而无需尝试从更大的 SOLR 中提取 JARS包。
我已经走了很多路,这就是我已经走了多远……那么,有任何示例代码可以在您自己的代码中使用这些类吗?
【问题讨论】:
标签: solr duplicates nutch