【问题标题】:How to create a Clickhouse materialized view of TOP N most frequent values如何创建 TOP N 最常见值的 Clickhouse 物化视图
【发布时间】:2021-08-07 15:28:11
【问题描述】:

我有一个巨大的 DNS 请求表,想报告一段时间内查询频率最高的域。例如,一年内每 5 分钟请求的前 20 个域。

传统的 SQL 查询可以 GROUP BY/count()/ORDER BY/LIMIT BY。但我每月摄取数十亿行数据,只能将源数据保留几天。我想创建一个物化视图来随着时间的推移保留报告数据。也许是 SummingMergeTree。

toStartOfHour(Timestamp), domain, count

但我只想保留最频繁的(而不是 5 分钟内的数百万个其他域)。如何在物化视图 SELECT 中仅汇总最常用的域?据我了解,选择只在每个 INSERTS 块上运行,可能与整体数据的频率不同。

这似乎应该是一件容易的事。我错过了什么明显的东西吗?

谢谢。

【问题讨论】:

    标签: clickhouse materialized-views


    【解决方案1】:

    这似乎应该是一件容易的事。

    除非不可能。

    我会使用 SELECT 而不是预先聚合的 Mat.Vie + cron / per hour -> dashboard_results_table

    【讨论】:

    • 谢谢丹尼。再次感谢您的帮助。
    猜你喜欢
    • 2021-01-09
    • 1970-01-01
    • 2021-12-06
    • 2020-06-25
    • 2021-10-11
    • 2021-07-24
    • 2021-10-09
    • 2019-01-28
    • 2018-12-28
    相关资源
    最近更新 更多