【发布时间】:2019-05-23 10:10:31
【问题描述】:
我刚刚阅读有关索引的内容,发现有两种主要的数据结构可用于索引,即 1) 倒排索引 2)后缀树
所以在我看来,如果 Suffix Tree 将整个文档的文本作为单个字符串进行索引,那么由于其结构,Suffix Tree 自然不需要使用连接查询来回答短语。
那么为什么人们仍在使用/谈论倒排索引?
【问题讨论】:
标签: data-structures suffix-tree inverted-index
我刚刚阅读有关索引的内容,发现有两种主要的数据结构可用于索引,即 1) 倒排索引 2)后缀树
所以在我看来,如果 Suffix Tree 将整个文档的文本作为单个字符串进行索引,那么由于其结构,Suffix Tree 自然不需要使用连接查询来回答短语。
那么为什么人们仍在使用/谈论倒排索引?
【问题讨论】:
标签: data-structures suffix-tree inverted-index
后缀树可以轻松回答精确的短语查询,但倒排索引更通用,对您需要的所有其他方面(如词干提取、同义词匹配、结果排名等)都非常有用,除非您扩展后缀树以包含倒排索引信息.
此外,精确的短语查询并不常见,后缀树要复杂得多,构建速度慢,并且需要更多的存储空间。对于典型的全文搜索应用程序,付出的代价太大了。
【讨论】: