【发布时间】:2019-04-03 16:21:30
【问题描述】:
我尝试计算两个dataframes 与相同ID(MainID 和ParentID)之间的时间差,以考虑评论和响应之间的联系。因此,一个dataframe 由带有各自时间戳的cmets 和一个MainID 组成,另一个dataframe 由带有时间戳的答案和ParentID 组成,与MainID 相同。但是,在我的记录中,一个独特的评论可能包含多个回复。因此,我的目标是计算第一个答案(或最后一个答案)的差异并将其写回dataframe。但是,我不知道如何实现这一点,而且我的功能似乎也不起作用。
for i in Comments['MainID']:
commentID = i
for j in Replies['ParentID']:
parentID = j
if commentID == parentID:
Comments['new'] == Comments['publishedAt'] - Replies['publishedAt']
Comment
MainID Message Published
1 terssfd32 ... 2018-06-25 23:00:00
2 hetasfd2s ... 2018-06-25 23:10:00
3 eeasdfr3d ... 2018-06-25 23:20:00
4 ... ... ...
Replies
ChildID ParentID Message Published
1 1a terssfd32 ... 2018-06-25 23:00:40
2 2a terssfd32 ... 2018-06-25 23:05:08
3 3a hetasfd2s ... 2018-06-25 23:11:40
4 4a hetasfd2s ... 2018-06-25 23:14:30
5 5a hetasfd2s ... 2018-06-25 23:16:10
6 6a eeasdfr3d ... 2018-06-25 23:22:08
Goal
MainID Published PublishedReply Diff
1 terssfd32 2018-06-25 23:00:00 2018-06-25 23:00:40 40sec
2 hetasfd2s 2018-06-25 23:10:00 2018-06-25 23:11:40 100sec
3 eeasdfr3d 2018-06-25 23:20:00 2018-06-25 23:22:08 128sec
4 ... ... ... ...
【问题讨论】:
-
你是如何计算 ID
terssfd32的 40 秒的?PublishedReply列似乎不正确。 -
加上时间戳是从哪里突然来的?您的示例数据需要正确,我们才能重现。
标签: python python-3.x pandas datetime dataframe