【发布时间】:2012-05-15 20:18:19
【问题描述】:
是否有一些散列算法可以将相似的文本文档散列到特定的散列值?
例如,
A = "这是示例文本 1" B= "这是示例文本 2"
A 和 B 需要散列到相同的值。
我做了一些研究并阅读了有关 SimHash 和 LSH 算法的信息。 Simhash 会导致哈希冲突,并且可以使用汉明距离来定义相似度。
理想情况下,我想要类似“如果字符串 A 和字符串 B 相差可接受的相似度阈值 (t
【问题讨论】:
-
我不确定是否有办法。我记得从我在某处读到的“良好哈希函数的属性”文章中,一个这样的属性是相似的值不会产生相似的哈希,因此数据中的任何结构相似性(这在现实生活中的数据中很常见)都不会反映出来在散列中,因此项目在整个散列表中均匀分布。
-
嗨,汤姆,是的,好的哈希的一个属性是不会产生类似的哈希。但是有一些算法专门用于引起冲突。 SimHash 算法就是一个例子。
标签: hash similarity