【发布时间】:2016-08-25 00:39:46
【问题描述】:
我正在构建一个小型垂直搜索引擎,使用 Elasticsearch 作为索引器,Nutch 作为爬虫。我使用HTML 标题字段使用edge n gram 策略为 ES 构建搜索建议,认为标题字段会很好,因为它应该包含页面主题内容的相关术语,并且可以保持索引更小在搜索建议方面,可以是单个单词或短语。然而,在目前的测试中,它并没有像想象的那样工作......只是没有那么多建议出现。
目前我只使用大约 10 个站点进行测试,但最终会达到大约 500 个左右。我认为由于数据集较小(10 个站点,仅在 HTML 标题字段上),可能没有足够的术语或短语来提出好的建议,至少是短语建议。
是否建议在标题字段上使用edge n gram 策略来抓取更多网站以创建更多建议(术语和短语),或者我应该使用内容字段(显然比标题字段大得多)。
我正在尝试对此进行微调以获得更多搜索建议,尤其是短语建议,同时注意索引大小 - 这样性能就不会受到影响。有什么想法吗?
【问题讨论】:
标签: elasticsearch search-suggestion