【发布时间】:2020-07-31 23:27:05
【问题描述】:
基于问题/解决方案here,我正在尝试设置一个参数,如果相同的值连续出现 5 次(或更多)次,则该参数只会删除连续的重复项...
我可以在链接的帖子中应用解决方案,它使用.shift() 检查以前的(或通过调整班次周期参数在过去或未来指定的值)是否等于当前值,但怎么可能我调整它以同时检查几个连续的值?
假设一个如下所示的数据框:
x y
1 2
2 2
3 3
4 3
5 3
6 3
7 3
8 4
9 4
10 4
11 4
12 2
我正在努力实现这一目标:
x y
1 2
2 2
3 3
8 4
9 4
10 4
11 4
12 2
我们丢失了第 4、5、6、7 行,因为我们在 y 列中找到了五个连续的 3。但是保留第 1,2 行,因为我们只能在 y 列中找到两个连续的 2。同样,保留第 8、9、10、11 行,因为我们在 y 列中只能找到四个连续的 4。
【问题讨论】:
标签: python pandas dataframe duplicates