【发布时间】:2021-07-24 05:06:52
【问题描述】:
我们有一个适度的 clickhouse 集群,大约 30 个节点,并希望收集它的使用统计信息。我们希望使用针对系统表的预定查询来做到这一点,但使用普通查询只能获取您碰巧连接到的一个节点的信息,并且创建分布式表仅适用于 *log 系统表。我们可以遍历节点,但不想这样做。有没有办法在一个查询中获取系统表的所有实例,例如 system.parts?
【问题讨论】:
标签: clickhouse
我们有一个适度的 clickhouse 集群,大约 30 个节点,并希望收集它的使用统计信息。我们希望使用针对系统表的预定查询来做到这一点,但使用普通查询只能获取您碰巧连接到的一个节点的信息,并且创建分布式表仅适用于 *log 系统表。我们可以遍历节点,但不想这样做。有没有办法在一个查询中获取系统表的所有实例,例如 system.parts?
【问题讨论】:
标签: clickhouse
可以使用remote or remoteSecure支持多地址的函数:
SELECT
hostName() AS host,
any(partition),
count()
FROM remote('node{01..30}-west.contoso.com', system, parts)
GROUP BY host
/*
┌─host──────────┬─any(partition)─┬─count()─┐
│ node01-west │ 202012 │ 733 │
..
│ node30-west │ 202012 │ 687 │
└───────────────┴────────────────┴─────────┘
*/
【讨论】:
分布式表适用于任何类型的表和 clusterAllReplicas。
create table test on cluster replicated as system.processes Engine=Distributed(replicated, system, processes);
SELECT
FQDN(),
elapsed
FROM test
┌─FQDN()────────────────────┬────elapsed─┐
│ hos.mycmdb.net │ 0.00063795 │
└───────────────────────────┴────────────┘
SELECT
FQDN(),
elapsed
FROM clusterAllReplicas(replicated, system, sessions);
SELECT elapsed
FROM clusterAllReplicas(replicated, system, processes)
┌─────elapsed─┐
│ 0.005636027 │
└─────────────┘
┌─────elapsed─┐
│ 0.000228303 │
└─────────────┘
┌─────elapsed─┐
│ 0.000275745 │
└─────────────┘
┌─────elapsed─┐
│ 0.000311621 │
└─────────────┘
┌─────elapsed─┐
│ 0.000270791 │
└─────────────┘
┌─────elapsed─┐
│ 0.000288045 │
└─────────────┘
┌─────elapsed─┐
│ 0.001048277 │
└─────────────┘
┌─────elapsed─┐
│ 0.000256203 │
└─────────────┘
【讨论】:
为了记录,我们最终使用了物化视图:
CREATE MATERIALIZED VIEW _tmp.parts on cluster main_cluster
engine = Distributed('main_cluster', 'system', 'parts', rand())
AS select * from system.parts
【讨论】: