【发布时间】:2012-11-16 00:46:30
【问题描述】:
在为搜索引擎分析文档时,通常不索引所谓的停用词。停用词是语言中经常出现的常用词,例如a、the 和this。这个想法是,如果停用词被编入索引,它们会在索引中占用太多空间,并且对搜索结果的质量几乎没有影响。
我想知道是否总是这样。
在现代搜索引擎中,索引停用词是否会使索引大小爆炸?还是只是微幅增长。
另外,移除停用词对词组搜索有何影响?搜索“beatles”和“the beatles”似乎是两个截然不同的东西。
我正在使用 elasticsearch 构建应用,但这个问题同样适用于 Solr、直接 lucene 或任何其他变体。
【问题讨论】:
-
用谷歌“披头士”和“披头士”(没有“”)给出相同的结果,所以我猜“the”确实被忽略了。
-
当我测试相同的东西时,它会得到 382.000.000 和 232.000.000 的结果。所以有区别。但是,不知道它值多少钱。
-
@TysHTTP:作为一般说明:“命中”的数量不可靠(由于搜索引擎优化,当确定前 K 应该是什么时 - 它停止搜索并停止对“找到的结果”)。虽然我不知道是不是这样,但我认为不是。
标签: algorithm search-engine elasticsearch information-retrieval stop-words