Lucence是apache旗下的一款高性能、可伸缩的开源的信息检索库,最初始Doug Cutting开发,并在SourceForge的网站下提供下载,它支持的预研C++,C#,perl、Python。
倒排索引也称为反向索引,是搜索引擎中最常见的数据结构,几乎所有的搜索引擎都会用到倒排索引。它将文档中的词作为关键字,建立词与文档的映射关系,通过对倒排索引的检索,可以根据词快速获取包含这个词的文档列表,这对于搜索引擎来说至关重要。
分词有成为切词,就是讲句子或者段落进行切割,从中提取出包含固定予以的词。
停止词,在英语中包含了 a、the、and这样频率很高的词,如果这些词都被建到索引中进行索引的话,搜索引擎就没有任何意义了,因为几乎所有的文档都包含这些词。
排序,当输入一个关键字进行搜索时,可能会命中许多文档,搜索引擎给用户的价值就是快速找到需要的文档,因此需要将相关度更大的内容排到前面,以便使用户能够更快的筛选有价值的内容弄。