【问题标题】:Elasticsearch term aggregation and range with timestampElasticsearch 术语聚合和带时间戳的范围
【发布时间】:2019-08-06 03:29:21
【问题描述】:

我正在尝试计算按用户代理分组的日志数。

这就是我所拥有的。

GET /myindex/_search
{
  "size": 30,
  "stored_fields": ["req.headers.user-agent.keyword"],
  "aggs": {
    "group_by_userAgent": {
      "terms": {
        "field": "req.headers.user-agent.keyword"
      }
    }
  }
}

我想添加“查询最后 15 分钟”功能。我尝试添加“范围”查询,但最终得到了以下查询,但该查询不起作用。

GET /myindex/_search
{
  "size": 30,
  "stored_fields": ["req.headers.user-agent.keyword"],


  "aggs": {

    "group_by_userAgent": {
      "terms": {
        "field": "req.headers.user-agent.keyword"
      },
      "range": {
        "timestamp": {
          "gt": "now-15m"
        }
      }
    }
  }
}

如何使用“now-x15min”语法查询范围聚合?

【问题讨论】:

    标签: elasticsearch range aggregation


    【解决方案1】:

    range 应该放在查询部分,而不是 aggs。时间范围还不错

    我认为您正在寻找的是前 30 个用户代理存储桶中的文档数量,即产生最多日志的前 30 个用户代理

    GET /myindex/_search
    {
      "size": 0,
      "query": {
        "range": {
          "@timestamp": {
            "gt": "now-15m"
          }
        }
      },
      "aggs": {
        "group_by_userAgent": {
          "terms": {
            "field": "req.headers.user-agent.keyword",
            "size": 30
          }
        }
      }
    }
    

    【讨论】:

    • 由于某种原因,当我添加“查询”时得到 0 结果(复制并粘贴您的代码”。删除“查询”会正确返回数据。
    • 您的timestamp 字段是date 字段吗?运行GET myindex会得到什么?
    • 是的,它是“类型:日期”,但它被命名为@timestamp。
    • 如果删除查询并添加"size": 1, "sort": {"timestamp": "desc"} 第一个文档的时间戳是多少?
    • 太棒了,很高兴它有帮助!
    【解决方案2】:

    您可以通过两种方式实现用户代理的聚合结果。

    POST phrase_index/_search
    {
      "aggs": {
        "date_range_filtered_agg": {
          "filter": {
            "range": {
              "timestamp": {
                "gte": "now-15m/m"
              }
            }
          },
          "aggs": {
            "group_by_userAgent": {
              "terms": {
                "field": "req.headers.user-agent.keyword",
                "size": 10
              }
            }
          }
        }
      },
      "size": 30,
      "stored_fields": ["req.headers.user-agent.keyword"]
    }
    
    
    POST phrase_index/_search
    {
      "query": {
        "range": {
          "timestamp": {
            "gte": "now-15m/m"
          }
        }
      },
      "aggs": {
        "group_by_userAgent": {
          "terms": {
            "field": "req.headers.user-agent.keyword",
            "size": 10
          }
        }
      },
      "size": 30,
      "stored_fields": ["req.headers.user-agent.keyword"]
    }
    

    【讨论】:

    • 第一个问题是聚合将在所有文档上运行,而不仅仅是过去 15 分钟的文档。因此,为什么查询部分需要范围,而不仅仅是聚合部分。第二个选项基本上就像我建议的那样。 OP 会告诉你,但他可能不需要任何点击,因为他想要按用户代理分组的日志计数,所以返回点击在这里没有任何意义,我认为他的意思是术语聚合中的前 30 个用户代理桶.
    【解决方案3】:

    您首先需要一个过滤聚合来应用范围查询,然后添加一个术语子聚合。

    见:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-filter-aggregation.html

    【讨论】:

    • 时间过滤器可以进入查询部分
    • @Val,我不确定,但也许发帖人只是想在聚合中过滤而不更改点击列表
    • 根据OP,他想统计用户代理分组的日志数量。对我来说,这听起来像是一个简单的术语聚合。不需要命中,因为它们无论如何都不会被分组。
    • @Val,让我困惑的是他的原始代码包含"size": 30
    • 是的,但是通过将范围查询放在他放置的位置,这也意味着他只是从 ES 开始:-)
    猜你喜欢
    • 2021-01-16
    • 2015-12-30
    • 2016-10-07
    • 2014-07-09
    • 2019-12-06
    • 2018-11-28
    • 2021-06-06
    • 1970-01-01
    • 2020-09-20
    相关资源
    最近更新 更多