【发布时间】:2021-05-26 07:36:25
【问题描述】:
答:
| CODE | TIMESTAMP | MODE |
|---|---|---|
| A | 2020-09-01 23:12:43 | Sleep |
| B | 2020-09-02 22:09:12 | Weak |
乙:
| CODE | TIMESTAMP | Action |
|---|---|---|
| A | 2020-08-01 11:12:43 | Go |
| A | 2020-09-01 22:09:12 | Stop |
| A | 2020-09-02 06:12:43 | Stop |
| A | 2020-09-03 11:07:43 | Stop |
| B | 2020-09-03 22:09:12 | Go |
决赛桌:
| CODE | A_TIMESTAMP | MODE | Action | B_TIMESTAMP |
|---|---|---|---|---|
| A | 2020-09-01 23:12:43 | Sleep | Stop | 2020-09-02 06:12:43 |
| B | 2020-09-02 22:09:12 | Weak | Go | 2020-09-03 22:09:12 |
我想要的是加入表A和表B(key=Code),但是如果表B的时间戳大于表A的值,这是只加入第一个的方法。
一张表的行数超过 1000 万行
表B的行数也是100万。
我可以使用 dask、pyspark、pandas、sql 全部。我怎样才能有效地得到它?
【问题讨论】:
-
用您正在使用的数据库标记您的问题。
标签: sql pandas database join mariadb