【发布时间】:2019-07-28 02:10:26
【问题描述】:
我有一个如下所示的 DataFrame,其中包含日期、偏移量和计数。
例如,这是数据帧的开始
df = pd.DataFrame(np.array([['2018-01-01', 0, 1], ['2018-01-01', 26, 2], ['2018-01-01', 178, 8], ['2018-01-01', 187, 10], ['2018-01-01', 197, 13], ['2018-01-01', 208, 15], ['2018-01-01', 219, 16], ['2018-01-01', 224, 19],['2018-01-01', 232, 21], ['2018-01-01', 233, 25], ['2018-01-01', 236, 32],['2018-01-02', 0, 1], ['2018-01-02', 11, 4], ['2018-01-02', 12, 7], ['2018-01-02', 20, 12], ['2018-01-02', 35, 24], ]), columns=['obs_date', 'offset', 'count'])
obs_date offset count
0 2018-01-01 0 1
1 2018-01-01 26 2
2 2018-01-01 178 8
3 2018-01-01 187 10
4 2018-01-01 197 13
5 2018-01-01 208 15
6 2018-01-01 219 16
7 2018-01-01 224 19
8 2018-01-01 232 21
9 2018-01-01 233 25
10 2018-01-01 236 32
11 2018-01-02 0 1
12 2018-01-02 11 4
13 2018-01-02 12 7
14 2018-01-02 20 12
15 2018-01-02 35 24
等
我想获取每个日期的(累积)['count'] 分位数 [0.25, 0.5, 0.75] 并找到该分位数适用的 ['offset'] 行。 每个日期的总计数会有所不同,并且偏移量不规则 所以对于 2018-01-01,日期和偏移量对应于 8、16 和 24(0.25、0.5、0.75 * 32)的计数
类似
0 2018-01-01 178 0.25
1 2018-01-01 219 0.5
2 2018-01-01 232.75 0.75
3 2018-01-02 43 0.25
etc
【问题讨论】:
-
我很困惑。您想根据哪一列设置分位数? cumsum 是哪一列?