【发布时间】:2011-10-13 21:23:23
【问题描述】:
本质上,我们希望能够为包含在大量文档中的所有 N 克唯一地分配 ID。因此,如果我有 1000 万个文档要处理,我会从每个文档中读取文本并获得 N 克(主要是三元组),并且应该能够为这些 N 元组分配唯一的 ID。不知何故,我需要存储这些唯一 ID,以便快速获取它们。
【问题讨论】:
-
假设你的 N 相当小,为什么不使用每个 N-gram 来标识自己呢?
-
在大多数情况下,N=3(三元组),但我仍然需要将它们保存在某个地方,以便以后获取它们。本质上,有一个扫描阶段(其中 trigram 分配给所有文档的唯一 ID)和处理阶段(读取 doc 并使用其所有 trigram 中的 uniqueIds 创建文档的签名)