【发布时间】:2016-03-21 20:38:55
【问题描述】:
假设我有以下熊猫数据框:
df = pd.DataFrame({'name':['Dave','Lisa','John',Lisa','Simon','Simon','Simon','Simon','Lisa','Dave','Dave','John','Lisa'],
'date': ['2015-01-31 07:14:39','2014-12-16 22:50:55','2015-04-12 23:29:11','2015-04-08 17:57:29','2015-01-30 03:51:12','2015-02-20 10:33:48','2014-12-15 23:54:03','2014-12-16 19:53:53','2014-12-18 00:15:02','2015-04-01 21:36:55','2015-04-13 23:25:55','2015-02-18 14:10:40','2015-02-27 04:56:33']})
数据帧1
date name
0 2015-01-31 07:14:39 Dave
1 2014-12-16 22:50:55 Lisa
2 2015-04-12 23:29:11 John
3 2015-04-08 17:57:29 Lisa
4 2015-01-30 03:51:12 Simon
5 2015-02-20 10:33:48 Simon
6 2014-12-15 23:54:03 Simon
7 2014-12-16 19:53:53 Simon
8 2014-12-18 00:15:02 Lisa
9 2015-04-01 21:36:55 Dave
10 2015-04-13 23:25:55 Dave
11 2015-02-18 14:10:40 John
12 2015-02-27 04:56:33 Lisa
数据帧2
name datemax
0 Dave 2015-04-13 23:25:55
1 John 2015-04-12 23:29:11
2 Lisa 2015-04-08 17:57:29
3 Simon 2015-02-20 10:33:48
'date' 和 'datemax' 列用日期时间对象填充。
我需要在 DATAFRAME1 中按“名称”分组,随机选择一个日期,但我希望这个选择的日期在第二个数据框 (DATAFRAME2) 中该名称的“日期最大值”之前。
我正在处理的真实数据框比此示例中的要大得多,因此我需要一种快速的方法来执行此操作。
【问题讨论】:
-
它需要是随机的,还是可以是第一个有效日期?
-
它必须是随机的:)
标签: python datetime pandas group-by