【问题标题】:Create new column that is the sum of two rows, but repeat every two rows [duplicate]创建两行之和的新列,但每两行重复一次[重复]
【发布时间】:2020-11-10 20:39:20
【问题描述】:

我正在努力在数据框中构建一个附加列,该列是一个时间段内两行的总和。附上一张图片:

我想在每个 TimePeriodId 的“BillType”列中创建一个新列,即“IN”和“SA”的生命总和。这样,我将为单个 TimePeriodId 提供一个“总生命”条目。我浏览了很多文档,但不知道在这种情况下我该怎么做。

代码示例:

sa = pd.read_sql(sa_q1, sql_conn)

#convert TimePeriodId to string values

sa['TimePeriodId'] = sa['TimePeriodId'].astype(str)

sa = sa.loc[(sa['BillType'] =='SA') | (sa['BillType']=='IN')]#.drop(['BillType'], axis = 1)

sa.head(10).to_dict()

#the last line returns the following:

{'TimePeriodId': {1: '201811',
  2: '201811',
  4: '201812',
  5: '201812',
  9: '201901',
  11: '201901',
  13: '201902',
  14: '201902',
  17: '201903',
  18: '201903'},
 'BillType': {1: 'IN',
  2: 'SA',
  4: 'IN',
  5: 'SA',
  9: 'SA',
  11: 'IN',
  13: 'IN',
  14: 'SA',
  17: 'IN',
  18: 'SA'},
 'Lives': {1: 1067,
  2: 288028,
  4: 1058,
  5: 287501,
  9: 293560,
  11: 1068,
  13: 1089,
  14: 278850,
  17: 1076,
  18: 276961}}

任何帮助将不胜感激!

【问题讨论】:

  • 请在问题中包含输入作为文本。另外,请包括预期的输出。
  • 如果您将数据作为可复制文本而不是图像提供,我可能会尝试发布答案...
  • 抱歉,我是 python 新手,不确定您所说的“输入为文本”是什么意思?
  • @KeithRoberts 将df.to_dict() 发布到问题中,如果df 是大帖子df.head(10).to_dict() 和预期输出。这使得在本地复制您的数据变得容易。

标签: python pandas


【解决方案1】:

您可以尝试使用pandas.DataFrame.groupby() 方法计算每个时间段的生命总和。之后,您可以使用pandas.DataFrame.transform() 方法通过计算列丰富sa 数据帧。

>>> sa['LivesTotal'] = sa.groupby('TimePeriodId').Lives.transform('sum')

【讨论】:

  • 这很好,但我最终得到了重复。我使用 .drop_duplicates() 并获取 nan 值。这对我来说没问题,只要我可以从不包含 nan 值的 df 构建图表
  • @JaroslavBezděk - 嗯,如果不是骗子,可以要求接受,对于骗子最好的答案......
  • 抱歉,没有注意到。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-04-11
  • 2016-05-24
  • 1970-01-01
  • 2020-08-31
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多