【发布时间】:2013-09-15 08:38:27
【问题描述】:
我通常会在 SQL 和 excel 中做很多事情,而我正在尝试用 Pandas 做这些事情。这里有几个不同的争论问题,合并为一个问题,因为它们都有相同的目标。
我在 python 中有一个包含三列的数据框 df:
| EventID | PictureID | Date
0 | 1 | A | 2010-01-01
1 | 2 | A | 2010-02-01
2 | 3 | A | 2010-02-15
3 | 4 | B | 2010-01-01
4 | 5 | C | 2010-02-01
5 | 6 | C | 2010-02-15
EventID 是唯一的。 PictureID 不是唯一的,尽管 PictureID + Date 是不同的。
我。首先,我想添加一个新列:
df['period'] = the month and year that the event falls into beginning 2010-01.
二。其次,我想将数据“融合”到一些新的数据帧中,该数据帧计算给定时间段内给定 PictureID 的事件数。我将使用只有两个句点的示例。
| PictureID | Period | Count
0 | A | 2010-01 | 1
1 | A | 2010-02 | 2
2 | B | 2010-01 | 1
3 | C | 2010-02 | 2
这样我就可以将这个新数据帧堆叠(?)到为所有唯一 PictureID 提供周期计数的东西中:
| PictureID | 2010-01 | 2010-02
0 | A | 1 | 2
1 | B | 1 | 0
2 | C | 0 | 2
我的感觉是,pandas 的构建很容易做到这一点,对吗?
[编辑:删除了令人困惑的第三部分。]
【问题讨论】: