【发布时间】:2021-08-07 15:28:11
【问题描述】:
我有一个巨大的 DNS 请求表,想报告一段时间内查询频率最高的域。例如,一年内每 5 分钟请求的前 20 个域。
传统的 SQL 查询可以 GROUP BY/count()/ORDER BY/LIMIT BY。但我每月摄取数十亿行数据,只能将源数据保留几天。我想创建一个物化视图来随着时间的推移保留报告数据。也许是 SummingMergeTree。
toStartOfHour(Timestamp), domain, count
但我只想保留最频繁的(而不是 5 分钟内的数百万个其他域)。如何在物化视图 SELECT 中仅汇总最常用的域?据我了解,选择只在每个 INSERTS 块上运行,可能与整体数据的频率不同。
这似乎应该是一件容易的事。我错过了什么明显的东西吗?
谢谢。
【问题讨论】:
标签: clickhouse materialized-views