【问题标题】:Add a new column with the list of values from all rows meeting a criterion添加一个新列,其中包含满足条件的所有行的值列表
【发布时间】:2017-11-10 20:14:38
【问题描述】:

我有一些数据列表,格式如下:

        date           value
'2017-01-01 01:01:01'   99
'2017-01-02 01:01:01'   98
'2017-01-03 01:01:01'   97
....
'2017-01-30 01:01:01'   95
'2017-01-31 01:01:01'   94

我想添加一列,如下所示:

        date          value     list
 ...
 ...
 ...
'2017-01-30 01:01:01'   95  [99,98,97,95]
'2017-01-31 01:01:01'   94  [99,98,97,95,94]

如果日期在相应行中的日期之前的某个时间范围内(例如 5 天),则第三列是第二列中的值列表。

【问题讨论】:

  • 你被否决了,因为你的问题完全含糊。
  • 只需点击问题文本编辑器右上角的 (?) 帮助图标。

标签: python pandas numpy


【解决方案1】:

这样的东西应该可以工作......

df = pd.DataFrame({'date': ['2017-01-01 01:01:01', '2017-01-02 01:01:01', '2017-01-03 01:01:01', '2017-01-30 01:01:01', '2017-01-31 01:01:01'],
                   'value': [99,98,97,95,94]})

df['date'] = pd.to_datetime(df['date'])

def get_list(row):

   subset = df[(row['date'] - df['date'] <= pd.to_timedelta('5 days')) & (row['date'] - df['date'] >= pd.to_timedelta('0 days'))]
   return str(subset['value'].tolist())

df['list'] = df.apply(get_list, axis=1)

输出:

              date  value          list
0 2017-01-01 01:01:01     99          [99]
1 2017-01-02 01:01:01     98      [99, 98]
2 2017-01-03 01:01:01     97  [99, 98, 97]
3 2017-01-30 01:01:01     95          [95]
4 2017-01-31 01:01:01     94      [95, 94]

【讨论】:

  • 谢谢莱利!难道 for 循环不会使代码变慢并且有点违背 pandas 的目的吗?
  • 我编辑了代码,使其更简洁,避免使用 for 循环
猜你喜欢
  • 2018-09-13
  • 2023-03-16
  • 1970-01-01
  • 2018-08-24
  • 2023-01-25
  • 1970-01-01
  • 2022-01-23
  • 1970-01-01
  • 2021-05-12
相关资源
最近更新 更多