【问题标题】:Elastic search wildcard query to get sorted results弹性搜索通配符查询以获取排序结果
【发布时间】:2020-06-13 05:05:13
【问题描述】:

我有一个 Elastic Search 服务器设置,其中存储了用于公司搜索的公司名称,它的工作方式是:

从公司名称中,空格和点将被删除并存储在 ES 中名为 trimmedcompanyname 的字段中,

{
          "companyName" : "RECKON INFOSYSTEM PRIVATE LIMITED",
          "trimmedCompanyName" : "reckoninfosystemprivatelimited",
          "id" : "1079"
}        

现在当搜索到我的服务器时,我删除了空格和点,然后向 ES 服务器发出请求。查询格式的ES请求为:

GET /_search
{
   "from": 0,"size": 100,
    "query": {
        "wildcard": {
            "trimmedCompanyName.keyword": {
                "value": "*infosys*"
            }
        }
    }
}

但我有大约 600 家名称为 infosys 的公司,它们将在存储时删除空格。所以 ES 返回我 100 家公司,但在这 100 家公司中,infosys 出现在第二个单词的开头或第三个单词的开头,但我希望结果包括在第一个单词中包含 infosys 的公司,然后在第二个单词中包含等等。

我能想到的一个解决方案是使用通配符查询 infosys* 和第二个查询 *infosys* 触发两个 ES 请求,将两个结果结合起来,删除重复项并返回响应,但由于此请求必须与分页因此触发两个请求可能会出错,有人可以帮我解决这个问题

【问题讨论】:

  • 我不能告诉你如何在结果中首先获得公司名称,它的第一个单词中有infosys,但通过查看我可以告诉你应该使用trimmedCompanyName并删除@ 987654327@ 包含关键字,它不会是不区分大小写的搜索。

标签: sorting elasticsearch wildcard elasticsearch-query


【解决方案1】:

首先,对于语料库数据,我们在 ES 中使用的传统相似度算法或查询在计算相关性时不会考虑术语的位置。

对于基于位置的查询,您需要使用Span Queries

我已经能够提出以下解决方案,该解决方案应该适用于您的情况。请注意,我使用了companyName 字段的查询,并且我假设它正在使用Standard Analyzer

以下是映射、示例文档、查询和响应的显示方式:

映射:

PUT my_company
{
  "mappings": {
    "properties": {
      "companyName":{
        "type":"text"
      }
    }
  }
}

示例文件:

POST my_company/_doc/1
{
  "companyName": "reckon infosystem private limited"
}

POST my_company/_doc/2
{
  "companyName": "infosys"
}

POST my_company/_doc/3
{
  "companyName": "telecom services infosystem private limited"
}

POST my_company/_doc/4
{
  "companyName":"infosystems technological solution"
}

查询:

POST <your_index_name>/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "span_multi": {
            "match": {
              "wildcard": {
                "companyName": "infosys*"
              }
            }
          }
        }
      ]
    }
  }
}

请注意,我在Span multi-term 查询中使用了通配符查询。

您可能想知道为什么我没有使用字段trimmedCompanyName,那是因为查看它的映射,(即使它的text 类型与standard analyzer)其中的值或内容是所有这些都被视为一个术语并以这种方式存储在倒排索引中。

回应:

{
  "took" : 4,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 4,
      "relation" : "eq"
    },
    "max_score" : 4.3264027,
    "hits" : [
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 4.3264027,
        "_source" : {
          "companyName" : "infosys"
        }
      },
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "4",
        "_score" : 3.2018504,
        "_source" : {
          "companyName" : "infosystems technological solution"
        }
      },
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 2.8335867,
        "_source" : {
          "companyName" : "reckon infosystem private limited"
        }
      },
      {
        "_index" : "my_company",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 2.5412967,
        "_source" : {
          "companyName" : "telecom services infosystem private limited"
        }
      }
    ]
  }
}

如果这有帮助,请告诉我!

【讨论】:

  • 您好,感谢您的帮助!我尝试了查询,但它没有返回完整的公司集,我有 490 家公司,但我在 ES 中有 625 家
  • 我想出了一个解决方案,但这并不是我想要的。看到这个stackoverflow.com/questions/60467698/…
  • 您能否提供我的解决方案不起作用的示例文档。我可以看看它。我也看到了你的另一个问题,它是这个问题的副本。而是编辑现有问题并在此处添加这些详细信息,然后删除其他问题。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-03-08
  • 2021-02-10
  • 2020-06-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多