【问题标题】:Confusion in hashing used by LSHLSH 使用的散列混淆
【发布时间】:2016-09-02 13:34:20
【问题描述】:

Matrix M 是签名矩阵,它是通过对实际数据进行 Minhashing 生成的,将文档作为列,将单词作为行。所以一列代表一个文档。

现在它表示每个条带(数量为b,长度为r)对其列进行哈希处理,因此一列属于存储桶。如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的。

也就是说我应该创建b 哈希表并找到b 独立的哈希函数?或者只有一个就足够了,每个条带将其列发送到相同的桶集合(但这不会取消条带)?

在这种情况下,字典是否足以用于哈希表*

*Is a Python dictionary an example of a hash table?

【问题讨论】:

    标签: python hash nearest-neighbor locality-sensitive-hash bigdata


    【解决方案1】:

    我想我想通了,为以后的读者发帖。

    我将使用一本字典,因为幻灯片中提到可以对每个条带使用相同的哈希函数 (dictionaries do that)。

    每个存储桶都将成为我们字典的键。

    在插入时,文档(即属于条带的列)将由散列函数(我们将创建)传递,结果应该是一个键。这样我们的字典就会被填充。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-01-04
      • 2011-04-29
      • 2010-09-16
      • 2021-04-01
      • 1970-01-01
      • 1970-01-01
      • 2012-03-18
      • 2020-08-10
      相关资源
      最近更新 更多