【发布时间】:2019-01-08 20:10:44
【问题描述】:
我有一个 Presto 表假设它有 [id, name, update_time] 列和数据
(1, Amy, 2018-08-01),
(1, Amy, 2018-08-02),
(1, Amyyyyyyy, 2018-08-03),
(2, Bob, 2018-08-01)
现在,我想执行一条sql,结果是
(1, Amyyyyyyy, 2018-08-03),
(2, Bob, 2018-08-01)
目前,我在 Presto 中进行重复数据删除的最佳方法如下。
select
t1.id,
t1.name,
t1.update_time
from table_name t1
join (select id, max(update_time) as update_time from table_name group by id) t2
on t1.id = t2.id and t1.update_time = t2.update_time
更多信息,点赞deduplication in sql
有没有更好的方法在 Presto 中进行重复数据删除?
【问题讨论】: