【问题标题】:How to increment a row count in groupby in DataFrame如何在 DataFrame 中的 groupby 中增加行数
【发布时间】:2014-07-10 14:49:36
【问题描述】:

我需要计算 pandas DataFrame 中每个产品的活动月数。到目前为止,这是我的数据和代码:

from pandas import DataFrame
from datetime import datetime
data = [
('product_a','08/31/2013')
,('product_b','08/31/2013')
,('product_c','08/31/2013')
,('product_a','09/30/2013')
,('product_b','09/30/2013')
,('product_c','09/30/2013')
,('product_a','10/31/2013')
,('product_b','10/31/2013')
,('product_c','10/31/2013')
]

product_df = DataFrame( data, columns=['prod_desc','activity_month'])

for index, row in product_df.iterrows():
  row['activity_month']= datetime.strptime(row['activity_month'],'%m/%d/%Y')
  product_df.loc[index, 'activity_month'] = datetime.strftime(row['activity_month'],'%Y-%m-%d')

product_df = product_df.sort(['prod_desc','activity_month'])

product_df['month_num'] = product_df.groupby(['prod_desc']).size()

但是,这会返回 month_num 的 NaN。

这是我想要的:

prod_desc    activity_month   month_num 
product_a       2014-08-31         1 
product_a       2014-09-30         2         
product_a       2014-10-31         3         
product_b       2014-08-31         1 
product_b       2014-09-30         2         
product_b       2014-10-31         3         
product_c       2014-08-31         1 
product_c       2014-09-30         2         
product_c       2014-10-31         3     

【问题讨论】:

  • 您在迭代时修改值,这在 python 中是不允许的(它可以作为迭代行将在单个 dtype 情况下返回视图),但通常是个坏主意);总是返回一个新框架(或复制并修改副本)
  • 使用 pd.to_datetime() 一次性转换您的日期
  • 我还不清楚你想要实现什么:month_num 是否应该等于activity_month 中的月份?你的最终目标是什么?
  • @ojdo 好点。我将编辑该示例以使其更加清晰。我有兴趣计算activity_months。这与现在是几月无关。如果一个产品有 5 个 activity_months,我需要该组中的行数从 1 变为 5。我将为第一个月、第二个月等的单独计算添加逻辑......

标签: python pandas


【解决方案1】:

groupby是正确的想法,但正确的方法是cumcount

>>> product_df['month_num'] = product_df.groupby('product_desc').cumcount()
>>> product_df

  product_desc activity_month  prod_count    pct_ch  month_num
0    product_a     2014-01-01          53       NaN          0
3    product_a     2014-02-01          52 -0.018868          1
6    product_a     2014-03-01          50 -0.038462          2
1    product_b     2014-01-01          44       NaN          0
4    product_b     2014-02-01          43 -0.022727          1
7    product_b     2014-03-01          41 -0.046512          2
2    product_c     2014-01-01          36       NaN          0
5    product_c     2014-02-01          35 -0.027778          1
8    product_c     2014-03-01          34 -0.028571          2

如果您真的希望它以 1 开头,那么只需这样做:

>>> product_df['month_num'] = product_df.groupby('product_desc').cumcount() + 1

  product_desc activity_month  prod_count    pct_ch  month_num
0    product_a     2014-01-01          53       NaN          1
3    product_a     2014-02-01          52 -0.018868          2
6    product_a     2014-03-01          50 -0.038462          3
1    product_b     2014-01-01          44       NaN          1
4    product_b     2014-02-01          43 -0.022727          2
7    product_b     2014-03-01          41 -0.046512          3
2    product_c     2014-01-01          36       NaN          1
5    product_c     2014-02-01          35 -0.027778          2
8    product_c     2014-03-01          34 -0.028571          3

【讨论】:

  • 完美!谢谢。
猜你喜欢
  • 2017-03-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-12-17
  • 1970-01-01
相关资源
最近更新 更多