es 多shard场景下relevance score不准确

如果你的一个index有多个shard的话，可能搜索结果会不准确

es 多shard场景下relevance score不准确

如何解决该问题

1、生产环境下，数据量大，尽可能实现均匀分配

数据量很大的话，其实一般情况下，在概率学的背景下，es都是在多个shard中均匀路由数据的，路由的时候根据_id，负载均衡
比如说有10个document，title都包含java，一共有5个shard，那么在概率学的背景下，如果负载均衡的话，其实每个shard都应该有2个doc，title包含java
如果说数据分布均匀的话，其实就没有刚才说的那个问题了

2、测试环境下

将索引的primary shard设置为1个，number_of_shards=1，index settings
如果说只有一个shard，那么当然，所有的document都在这个shard里面，就没有这个问题了

3、测试环境下

搜索附带search_type=dfs_query_then_fetch参数，会将local IDF取出来计算global IDF
计算一个doc的相关度分数的时候，就会将所有shard对的local IDF计算一下，获取出来，在本地进行global IDF分数的计算，会将所有shard的doc作为上下文来进行计算，也能确保准确性。
但是production生产环境下，不推荐这个参数，因为性能很差。

相关文章：

2022-12-23
2021-07-20
2021-04-26
2021-08-05
2021-12-10
2021-10-11
2021-04-29
2021-04-07

猜你喜欢

2021-07-19
2022-01-18
2021-06-06
2021-11-26
2022-12-23
2021-08-05
2022-12-23

相关资源

下载 2023-04-06
下载 2023-02-01
下载 2022-12-06
下载 2023-01-07
下载 2022-12-29

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode