【发布时间】:2021-05-06 07:48:12
【问题描述】:
我有一个如下的数据框:-
| id | creTimestamp | CPULoad | instnceId |
|---|---|---|---|
| 0 | 2021-01-22 18:00:00 | 22.0 | instanceA |
| 1 | 2021-01-22 19:00:00 | 22.5 | instanceA |
| 2 | 2021-01-22 20:00:00 | 23.5 | instanceA |
| 3 | 2021-01-22 18:00:00 | 24.0 | instanceB |
| 4 | 2021-01-22 19:00:00 | 24.5 | instanceB |
| 5 | 2021-01-22 20:00:00 | 22.5 | instanceB |
| 6 | 2021-01-24 18:00:00 | 23.0 | instanceA |
| 7 | 2021-01-24 19:00:00 | 23.5 | instanceA |
| 8 | 2021-01-24 20:00:00 | 24.0 | instanceA |
| 9 | 2021-01-24 18:00:00 | 25.5 | instanceB |
| 10 | 2021-01-24 19:00:00 | 28.5 | instanceB |
| 11 | 2021-01-24 20:00:00 | 23.5 | instanceB |
缺课日期如下:
2021-01-23 2021-01-25
我还想用之前的日期填充 2021-01-23 和 2021-01-25 的行。例如,应考虑 22 日期 HR 数据。 我有一个巨大的数据集,其中日期的整个数据可能会丢失 2 小时。 日期也可以从未来的日期范围生成。 2021-02-01 18:00:00 到 2021-02-02 18:00:00 的示例
更新的数据框应该如下:-
| id | creTimestamp | CPULoad | instnceId |
|---|---|---|---|
| 0 | 2021-01-22 18:00:00 | 22.0 | instanceA |
| 1 | 2021-01-22 19:00:00 | 22.5 | instanceA |
| 2 | 2021-01-22 20:00:00 | 23.5 | instanceA |
| 3 | 2021-01-22 18:00:00 | 24.0 | instanceB |
| 4 | 2021-01-22 19:00:00 | 24.5 | instanceB |
| 5 | 2021-01-22 20:00:00 | 22.5 | instanceB |
| 6 | 2021-01-23 18:00:00 | 22.0 | instanceA |
| 7 | 2021-01-23 19:00:00 | 22.5 | instanceA |
| 8 | 2021-01-23 20:00:00 | 23.5 | instanceA |
| 9 | 2021-01-23 18:00:00 | 24.0 | instanceB |
| 10 | 2021-01-23 19:00:00 | 24.5 | instanceB |
| 11 | 2021-01-23 20:00:00 | 22.5 | instanceB |
| 12 | 2021-01-24 18:00:00 | 23.0 | instanceA |
| 13 | 2021-01-24 19:00:00 | 23.5 | instanceA |
| 14 | 2021-01-24 20:00:00 | 24.0 | instanceA |
| 15 | 2021-01-24 18:00:00 | 25.5 | instanceB |
| 16 | 2021-01-24 19:00:00 | 28.5 | instanceB |
| 17 | 2021-01-24 20:00:00 | 23.5 | instanceB |
| 18 | 2021-01-25 18:00:00 | 23.0 | instanceA |
| 19 | 2021-01-25 19:00:00 | 23.5 | instanceA |
| 20 | 2021-01-25 20:00:00 | 24.0 | instanceA |
| 21 | 2021-01-25 18:00:00 | 25.5 | instanceB |
| 22 | 2021-01-25 19:00:00 | 28.5 | instanceB |
| 23 | 2021-01-25 20:00:00 | 23.5 | instanceB |
日期范围可以是过去 7 天。
请帮我解决这个要求。
谢谢
【问题讨论】:
-
对于缺失的行,您要在 CPULoad 和 InstanceID 列中填写什么?
-
上一个日期和同一小时的数据。如果你看到更新的数据框,CPUload 有 2021-01-22 19:00:00 的数据,即 22。实例也应该相同。就像我的例子中的实例 A
标签: python pandas dataframe datetime time