【问题标题】:Get Percentage of Values in Elasticsearch在 Elasticsearch 中获取值的百分比
【发布时间】:2016-02-26 07:08:15
【问题描述】:

我有一些看起来像的测试文档

"hits": {
        ...
            "_source": {
               "student": "DTWjkg",
               "name": "My Name",
               "grade": "A"
            ...
               "student": "ggddee",
               "name": "My Name2",
               "grade": "B"
            ...
               "student": "ggddee",
               "name": "My Name3",
               "grade": "A"

我想获得成绩为 B 的学生的百分比,假设只有 3 个学生,结果将是“33%”。

我将如何在 Elasticsearch 中执行此操作?

到目前为止,我有这个聚合,我觉得它很接近:

"aggs": {
    "gradeBPercent": {
        "terms": {
            "field" : "grade",
            "script" : "_value == 'B'"
        }
    }
}

这会返回:

"aggregations": {
      "gradeBPercent": {
         "doc_count_error_upper_bound": 0,
         "sum_other_doc_count": 0,
         "buckets": [
            {
               "key": "false",
               "doc_count": 2
            },
            {
               "key": "true",
               "doc_count": 1
            }
         ]
      }
   }

我并不一定要寻找确切的答案,也许我可以用谷歌搜索我可以使用的术语和关键字。我已经阅读了 elasticsearch 文档,但没有找到任何可以提供帮助的内容。

【问题讨论】:

  • 对我来说,这是一个很好的功能想法,你应该把它推荐给 ES 团队。

标签: elasticsearch aggregation


【解决方案1】:

首先,您不需要用于此聚合的脚本。如果您想将结果限制在 `value == 'B' 的每个人,那么您应该使用过滤器而不是脚本来做到这一点。

ElasticSearch 不会为您返回准确的百分比,但您可以使用 TERMS AGGREGATION 的结果轻松计算。

例子:

GET devdev/audittrail/_search
{
  "size": 0,
  "aggs": {
    "a1": {
      "terms": {
        "field": "uIDRequestID"
      }
    }
  }
}

返回:

{
  "took": 12,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 25083,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "a1": {
      "doc_count_error_upper_bound": 9,
      "sum_other_doc_count": 1300,
      "buckets": [
        {
          "key": 556,
          "doc_count": 34
        },
        {
          "key": 393,
          "doc_count": 28
        },
        {
          "key": 528,
          "doc_count": 15
        }
      ]
    }
  }
}

那么返回是什么意思?

  • hits.total 字段是与您的查询匹配的记录总数。
  • doc_count 告诉您每个存储桶中有多少项目。

对于我的示例:我可以说键“556”出现在 25083 个文档中的 34 个中,因此它的百分比为 (34 / 25083) * 100

【讨论】:

  • 您的第二段是否暗示不能自动返回百分比值?
  • 在我写这篇文章的时候,是的。我不确定更新版本的 ES 是否可以做到这一点。
  • 现在情况好转了吗?我们在 7.9.1。并不是说以后很难计算(例如在 Python 中),而是我添加了一个 Watcher,并且我想在一个值的百分比过高时发出警报。在我的情况下,这将是 HTTP 500 与所有其他的。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-11-28
  • 2010-10-19
  • 2020-10-30
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多