PostgreSQL 中的优化查询答案

【问题标题】：Optimized querying in PostgreSQLPostgreSQL 中的优化查询
【发布时间】：2015-04-02 13:19:36
【问题描述】：

假设您有一个名为 tracker 的表，其中包含以下记录。

issue_id  |  ingest_date         |  verb,status
10         2015-01-24 00:00:00    1,1
10         2015-01-25 00:00:00    2,2
10         2015-01-26 00:00:00    2,3
10         2015-01-27 00:00:00    3,4
11         2015-01-10 00:00:00    1,3
11         2015-01-11 00:00:00    2,4

我需要以下结果

10         2015-01-26 00:00:00    2,3
11         2015-01-11 00:00:00    2,4

我正在尝试这个查询

select * 
from etl_change_fact 
where ingest_date = (select max(ingest_date) 
                     from etl_change_fact);

但是，这只给了我

10    2015-01-26 00:00:00    2,3

这条记录。

但是，我希望所有唯一记录（change_id）都带有

(a) max(ingest_date) 与

(b) 动词列优先级为（2 - 第一个首选，1 - 第二个首选，3 - 最后一个首选）

因此，我需要以下结果

10    2015-01-26 00:00:00    2,3
11    2015-01-11 00:00:00    2,4

请帮我高效查询。

附注：我不会索引 ingest_date，因为我将在分布式计算设置中将其设置为“分发密钥”。我是数据仓库和查询的新手。

因此，请帮助我以优化方式访问我的 TB 大小的数据库。

【问题讨论】：

我不明白这个问题。 max(ingest_date) 是“2015-01-26 00:00:00”，所以条件 a) 只会让您获得该记录。你的条件（b）是什么意思？你能改写一下吗，因为我不明白你的描述与你想要返回的记录有什么关系。最后——mysql还是postgresql？
我需要postgreSQL
@mlinth ：我的两个条件都有效......！请查看我的示例数据...相比之下，如果我取 max(ingest_date) 并且记录的动词为 3，我不想要该记录。我想要它之前的那个（我的意思是没有动词 3）

标签： postgresql query-optimization greatest-n-per-group postgresql-8.0

【解决方案1】：

这是一个典型的“greatest-n-per-group”问题。如果你在这里搜索这个标签，你会得到很多解决方案——包括 MySQL。

对于 Postgres，最快的方法是使用 distinct on（这是 SQL 语言的 Postgres 专有扩展）

select distinct on (issue_id) issue_id, ingest_date, verb, status
from etl_change_fact
order by issue_id, 
         case verb 
            when 2 then 1 
            when 1 then 2
            else 3
         end, ingest_date desc;

您可以增强原始查询以使用相关的子查询来实现相同的目的：

select f1.* 
from etl_change_fact f1
where f1.ingest_date = (select max(f2.ingest_date) 
                        from etl_change_fact f2
                        where f1.issue_id = f2.issue_id);

编辑

对于过时且不受支持的 Postgres 版本，您可能可以使用这样的方法逃脱：

select f1.* 
from etl_change_fact f1
where f1.ingest_date = (select f2.ingest_date
                        from etl_change_fact f2
                        where f1.issue_id = f2.issue_id
                        order by case verb 
                                  when 2 then 1 
                                  when 1 then 2
                                  else 3
                              end, ingest_date desc
                        limit 1);

SQLFiddle 示例：http://sqlfiddle.com/#!15/3bb05/1

【讨论】：

谢谢马...除了摄取日期条件外，我还想添加“动词”条件....如果可以请帮助...
ERROR: SELECT DISTINCT ON is not supported getting this error... 我的 postgreSQL 版本是 8.0.2
@user2893206: 8.0 已经超过 5 年没有维护了，已经 10 岁了。您要做的第一件事是升级到受支持的当前版本（例如 9.4）。
对不起。我明白。我实际上的意思是“如果您有任何想法，请帮助我”
谢谢。但是，上面的查询给了我所有的记录。