【发布时间】:2023-03-14 01:59:01
【问题描述】:
我有一个包含几个日期字段的数据集,包括小时数。我想将其中一个用作我的 df 索引,并计算每天创建的条目数。换句话说,如果我有:
Date | Several features
2020-02-08 10h00 | ...
2020-02-08 11h00 | ...
2020-02-10 10h00 | ...
2020-02-10 11h00 | ...
2020-02-10 13h00 | ...
我想得到:
2020-02-08 | 2
2020-02-10 | 3
为此,我正在做:
df["datetime"] = pd.to_datetime(df["datetime"])
df = df.set_index('datetime')
df.resample('D')["id"].count()
其中id 是每个条目的唯一标识符。
但是,我得到以下输出:
2020-02-08 | 2
2020-02-09 | 0
2020-02-10 | 3
如何摆脱“2020-02-09”行?我只想计算我的数据集上出现的日子,而不是我没有的日子。
【问题讨论】:
-
IMO,
resample不是必需的。只需groupby和count()或size()即可为您提供答案。