【发布时间】:2012-06-13 07:41:25
【问题描述】:
我正在研究网页内容过滤,其中一个页面上有 10000 个单词。我必须将它与我的 1500-2500words 词典相匹配。而且我必须找出页面中是否存在任何单词。
请建议我最好的数据结构来存储我的模式更快的搜索。 我研究过树结构。但是让我们取一个可能有 26 种可能的下一个字符的单词 (abc)。我必须为下一个节点保留 26 个指针。 (它消耗 26x4 字节)。我不能花那么多内存来存储每个单词的模式。
建议我最好的搜索和最好的记忆。
我是这个领域的初学者。
【问题讨论】:
-
使用 trie,您不必“为下一个节点保留 26 个指针”。您可以动态分配排序指针数组。
标签: data-structures pattern-matching