【问题标题】:How to split a dataframe and create sub dataframes by grouping rows using a specific value?如何通过使用特定值对行进行分组来拆分数据框并创建子数据框?
【发布时间】:2020-03-26 15:03:13
【问题描述】:

我有一个如下所示的数据框

date,value
2/10/19,34
2/11/19,34
2/12/19,34
2/13/19,34
2/14/19,34
2/15/19,34
2/16/19,34
2/17/19,0
2/18/19,0
2/19/19,0
2/20/19,22
2/21/19,22
2/22/19,22
2/23/19,22
2/24/19,0
2/25/19,0
2/26/19,0
2/27/19,0
2/28/19,1
3/1/19,2
3/2/19,2
3/3/19,1
3/4/19,0
3/5/19,0
3/6/19,0
3/7/19,3
3/8/19,3
3/9/19,3
3/10/19,0

在每个间隔数据帧都有零值之后,我想以这样的方式对行进行分组,如果零连续出现两次以上,它应该创建一个子数据帧并保存一个文件。

Output:


df1 
    2/17/19,0
    2/18/19,0
    2/19/19,0
df2
    2/24/19,0
    2/25/19,0
    2/26/19,0
    2/27/19,0
df3
    3/4/19,0
    3/5/19,0
    3/6/19,0

我尝试了很多方法,但都失败了。

谢谢。

【问题讨论】:

  • 你想只保留零的行吗?

标签: python pandas


【解决方案1】:

您可以尝试使用滚动:

def merge_intervals(intervals):
    sorted_intervals = sorted(intervals, key=lambda x: x[0])
    interval_index = 0
    #print(sorted_intervals)
    for  i in sorted_intervals:

        if i[0] > sorted_intervals[interval_index][1]:
            interval_index += 1
            sorted_intervals[interval_index] = i
        else:
            sorted_intervals[interval_index] = [sorted_intervals[interval_index][0], i[1]]
    #print(sorted_intervals)
    return sorted_intervals[:interval_index+1]

end_ids = df[df['value'].rolling(3).apply(lambda x: (x==0).all())==1].index

start_ids = end_ids-3

intervals = merge_intervals([*zip(starts_ids, end_ids)])

for i,interval in enumerate(intervals):
    df[interval[0]+1:interval[1]+1].to_csv('df_' + str(i) + '.csv')

不是最漂亮的代码,但它可以工作,合并功能在这里找到:Merging Overlapping Intervals in Python

【讨论】:

  • 我认为代码足够接近,但如果我理解正确,“滚动(3)”会产生一些麻烦并生成只有 3 行的数据帧,并且在不同的数据帧中有共同的行。我必须理解这段代码并进行相应的修改。虽然很有帮助。谢谢。
  • 抱歉,我没有看到您想要 >=3,我已将代码修复为以这种方式工作。
  • 嘿,这是我尝试了几个小时的东西,谢谢。
【解决方案2】:

查找值等于 0 的位置并取长度为 3 的滚动和。查找滚动和等于 3 的位置。结果将滞后 2 个空格,因此我们将结果的逻辑 or 与结果的 -1 移位和 -2 移位版本。

mask = df['value'].eq(0).rolling(3).sum().eq(3)
mask |= mask.shift(-2) | mask.shift(-1)

为了得到组,我取逻辑否定的累积和。这将为每个非零值增加并停滞在零处。但是,每组零将是不同的。在我使用groupby 时,这并不重要,因为我将使用初始的mask 来仅查看首先满足条件的行。

但是,结果组将是一组不连续的整数。因为我不喜欢这样,所以我使用factorize 为这些组赋予从零开始的唯一整数值​​。

grp_masked = (~mask).cumsum()[mask].factorize()[0]
g = df[mask].groupby(grp_masked)

保存文件

for grp, d in g:
    d.to_csv(f'df_{grp}.csv', index=False)

创建字典

df_dict = {grp: d for grp, d in g}

详情

这显示了原始数据框以及显示我们计算的一些内容的其他列。

group_series = pd.Series(
    grp_masked, df.index[mask], pd.Int64Dtype()
)

df_ = df.assign(
    EqZero=df['value'].eq(0),
    Roll2=df['value'].eq(0).rolling(3).sum(),
    Is3=df['value'].eq(0).rolling(3).sum().eq(3),
    Shift=lambda d: d.Is3.shift(-2) | d.Is3.shift(-1),
    Mask=mask,
    PreGrp=(~mask).cumsum(),
    Grp=group_series
)

df_

       date  value  EqZero  Roll2    Is3  Shift   Mask  PreGrp   Grp
0   2/10/19     34   False    NaN  False  False  False       1  <NA>
1   2/11/19      0    True    NaN  False  False  False       2  <NA>
2   2/12/19      0    True    2.0  False  False  False       3  <NA>
3   2/13/19     34   False    2.0  False  False  False       4  <NA>
4   2/14/19     34   False    1.0  False  False  False       5  <NA>
5   2/15/19     34   False    0.0  False  False  False       6  <NA>
6   2/16/19     34   False    0.0  False  False  False       7  <NA>
7   2/17/19      0    True    1.0  False   True   True       7     0
8   2/18/19      0    True    2.0  False   True   True       7     0
9   2/19/19      0    True    3.0   True  False   True       7     0
10  2/20/19     22   False    2.0  False  False  False       8  <NA>
11  2/21/19     22   False    1.0  False  False  False       9  <NA>
12  2/22/19     22   False    0.0  False  False  False      10  <NA>
13  2/23/19     22   False    0.0  False  False  False      11  <NA>
14  2/24/19      0    True    1.0  False   True   True      11     1
15  2/25/19      0    True    2.0  False   True   True      11     1
16  2/26/19      0    True    3.0   True   True   True      11     1
17  2/27/19      0    True    3.0   True  False   True      11     1
18  2/28/19      1   False    2.0  False  False  False      12  <NA>
19   3/1/19      2   False    1.0  False  False  False      13  <NA>
20   3/2/19      2   False    0.0  False  False  False      14  <NA>
21   3/3/19      1   False    0.0  False  False  False      15  <NA>
22   3/4/19      0    True    1.0  False   True   True      15     2
23   3/5/19      0    True    2.0  False   True   True      15     2
24   3/6/19      0    True    3.0   True  False   True      15     2
25   3/7/19      3   False    2.0  False  False  False      16  <NA>
26   3/8/19      3   False    1.0  False  False  False      17  <NA>
27   3/9/19      3   False    0.0  False  False  False      18  <NA>
28  3/10/19      0    True    1.0  False  False  False      19  <NA>

【讨论】:

  • 非常精确的代码和很好的解释谢谢分享。
猜你喜欢
  • 2019-02-27
  • 2023-03-09
  • 2022-01-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-04-17
  • 2015-09-19
相关资源
最近更新 更多