【问题标题】:Summarizing dataframe into a dictionary将数据框汇总到字典中
【发布时间】:2016-01-26 12:28:42
【问题描述】:

我有一个这样的熊猫数据框

    date        hour  level
0  2015-10-27    0     2.5
1  2015-10-27    1     2.5     
2  2015-10-27    2     2.5
3  2015-10-27    3     2.5
4  2015-10-28    0     0.0
5  2015-10-28    1     0.0
6  2015-10-28    2     0.0
7  2015-10-28    3     0.0
8  2015-10-28    4     0.0
...
14 2015-10-29    0     3.23
15 2015-10-29    1     3.23
...

hour 将始终从 0 开始,并以 1 递增;它可能会或可能不会达到 23。date 每次递增一天,但日期条目的数量可能因日期而异,例如- 2015-10-27 有 4 个条目,而 2015-10-28 上升到第 13 行。level 条目在该日期将始终具有相同的值,但该值可能会或可能不会出现在另一个日期。

我想要的是这种形式的字典

{'2015-10-27': '3', ..., '2015-10-29': '4', ...}

字典值表示level落入的范围,即如果level是2.5,那么它落入[2, 3)。我想做的只是选择每个“块”的第一行并创建一个新的数据框,然后遍历该行并应用 10 个 if 语句(级别的最大值为 9.xx)或可能使用上限函数.但是我也不知道该怎么做,而且看起来很笨拙。

有没有更简化的方法来做到这一点?

【问题讨论】:

  • 使用DataFrame.groupby!
  • @AlanH 你能更清楚地解释你在做什么吗?您想要每个datelevel 的上限吗?如果同一日期有多个级别(来自不同范围)怎么办?
  • @AnandSKumar 这不会出现在我的数据框中,这就是为什么我制作了每个分组的所有相同级别条目的示例。

标签: python dictionary pandas dataframe


【解决方案1】:

如果每个日期的 level 的所有值都在同一范围内,您可以基于 date 进行分组(使用 DataFrame.groupby() ),然后将 max 用于 level 列,然后 ceil all值(到上限),然后使用 Series.to_dict() 将该系列转换为字典。示例 -

df.groupby('date')['level'].first().apply(np.ceil).to_dict()

演示 -

In [44]: df
Out[44]:
          date  hour  level
0   2015-10-27     0   2.50
1   2015-10-27     1   2.50
2   2015-10-27     2   2.50
3   2015-10-27     3   2.50
4   2015-10-28     0   0.00
5   2015-10-28     1   0.00
6   2015-10-28     2   0.00
7   2015-10-28     3   0.00
8   2015-10-28     4   0.00
14  2015-10-29     0   3.23
15  2015-10-29     1   3.23

In [45]: df.groupby('date')['level'].first().apply(np.ceil).to_dict()
Out[45]: {'2015-10-27': 3.0, '2015-10-28': 0.0, '2015-10-29': 4.0}

如果您希望字典中的值是 int ,您可以先将值转换为 int,然后再使用 Series.astype() 方法转换为字典。示例 -

In [46]: df.groupby('date')['level'].first().apply(np.ceil).astype(int).to_dict()
Out[46]: {'2015-10-27': 3, '2015-10-28': 0, '2015-10-29': 4}

【讨论】:

  • 但是如果我只想代表实际值呢?例如,对于键 '2015-10-29',而不是 4(如您的解决方案中),我只想将 3.23 作为值。
  • 删除 .apply(np.ceil) 。从上述解决方案
  • min() 留在那里如何工作?我不明白df.groupby('date')['level'] 那时的样子(我无法打印)。
  • 您可以使用 .first() 代替 min()max() 。它仅用于为每个组(每个日期)获取一个值。
猜你喜欢
  • 2016-09-17
  • 1970-01-01
  • 2018-10-19
  • 1970-01-01
  • 2016-08-31
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多