【发布时间】:2016-09-02 13:34:20
【问题描述】:
Matrix M 是签名矩阵,它是通过对实际数据进行 Minhashing 生成的,将文档作为列,将单词作为行。所以一列代表一个文档。
现在它表示每个条带(数量为b,长度为r)对其列进行哈希处理,因此一列属于存储桶。如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的。
也就是说我应该创建b 哈希表并找到b 独立的哈希函数?或者只有一个就足够了,每个条带将其列发送到相同的桶集合(但这不会取消条带)?
在这种情况下,字典是否足以用于哈希表*?
【问题讨论】:
标签: python hash nearest-neighbor locality-sensitive-hash bigdata