【发布时间】:2017-02-22 00:02:26
【问题描述】:
在最新的 Elasticsearch 文档 5.1 版本中,有一节是关于 Limit Token Count - Token Filter。
它有一个名为“max_token_count”的设置,默认为1。
也许我在这里遗漏了一些东西,但 1 似乎太低了。为什么我们需要或想要限制每个文档的最大令牌数量?
这不会影响超大文档的索引吗?
【问题讨论】:
标签: elasticsearch
在最新的 Elasticsearch 文档 5.1 版本中,有一节是关于 Limit Token Count - Token Filter。
它有一个名为“max_token_count”的设置,默认为1。
也许我在这里遗漏了一些东西,但 1 似乎太低了。为什么我们需要或想要限制每个文档的最大令牌数量?
这不会影响超大文档的索引吗?
【问题讨论】:
标签: elasticsearch
默认的 1 个 token 确实看起来很奇怪,但是 max token 本身就很合理。我自己使用它,结合一个独特的过滤器,来限制一些可能很长的用户生成数据的可搜索性。
有问题的字段是他们可以存储数据的“注释”字段。这里的数据应该只影响相关性,而不是主要的搜索字段,因此没有理由将大量的弹性搜索存储投入到它。
也就是说,我目前实现这一点的努力不尊重 max_token_count 参数,所以我们将看看它是如何进行的。
【讨论】: