从分组查询中删除连接操作答案

【问题标题】：removing join operations from a grouping query从分组查询中删除连接操作
【发布时间】：2019-06-04 19:39:47
【问题描述】：

我有一个看起来像这样的表：

usr_id  query_ts
12345   2019/05/13 02:06
123444  2019/05/15 04:06
123444  2019/05/16 05:06
12345   2019/05/16 02:06
12345   2019/05/15 02:06

它包含运行查询时的用户 ID。表中的每个条目代表在给定时间戳运行 1 个查询的 ID。

我正在尝试制作这个：

usr_id  day_1   day_2   …   day_30
12345   31       13           15
123444  23       41           14

我想显示每个 ID 在过去 30 天内每天运行的查询数，如果当天没有运行查询，则为 0。

这是我提出的查询的一部分，

SELECT
t1.usr_id,
case when t1.count_day_1 is null then 0 else t1.count_day_1 end as day_1,
case when t2.count_day_2 is null then 0 else t2.count_day_2 end as day_2
FROM

(SELECT usr_id, DAY(from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")) as day_1,
        COUNT( DAY(from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd"))) as count_day_1
        FROM db.table
        WHERE
            DAY(from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")) = 1
        AND
            from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")
                BETWEEN date_sub(from_unixtime(unix_timestamp()), 30)
                AND from_unixtime(unix_timestamp())
        GROUP BY usr_id, day_1) t1

LEFT JOIN
(SELECT usr_id, DAY(from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")) as day_2,
        COUNT( DAY(from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd"))) as count_day_2
        FROM db.table
        WHERE
            DAY(from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")) = 2
        AND
            from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")
                BETWEEN date_sub(from_unixtime(unix_timestamp()), 30)
                AND from_unixtime(unix_timestamp())
        GROUP BY usr_id, day_2) t2
ON (t1.usr_id = t2.usr_id)
ORDER BY t1.usr_id;

这很好用，它显示了前 2 天每天运行的查询数，并将 NULL 替换为 0。

问题是要让它工作 30 天，我必须使用 30 个 LEFT JOIN，这会在集群上占用约 400GB+ 的内存。

有更简单的方法吗？

【问题讨论】：

标签： sql hadoop hive query-optimization hiveql

【解决方案1】：

尝试在不连接的情况下使用 current_date 或current_timestamp 常量，而不是 WHERE 中的 unix_timestamp()，此函数不是确定性的，其值对于查询执行的范围也不是固定的，因此会妨碍适当的优化查询 - 自 2.0 起已弃用，取而代之的是 CURRENT_TIMESTAMP 常量：

select usr_id,
nvl(count(case when from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "dd") = 1 then 1 end),0) as day_1,
nvl(count(case when from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "dd") = 2 then 1 end),0) as day_2
...
from db.table
        WHERE
            from_unixtime(unix_timestamp(query_ts ,"yyyy/MM/dd"), "yyyy-MM-dd")
                BETWEEN date_sub(current_date, 30) AND current_date)
group by usr_id

【讨论】：