【发布时间】:2019-03-04 01:18:49
【问题描述】:
我的数据(CSV 文件)有重复值。但是顺序值彼此重要,而不是彼此重要。我需要按 col a 中的相似值对行进行分组,但对于仅彼此靠近的值。
IE for (2,1) =[[0.5, 1.5], [1.2, 2.3], (2,2) = [[1.3, 0.5], [2.5, 1.5]] 等等。
col a posX pos y
0 1 0.5 1.5
1 1 1.2 2.3
2 2 1.3 0.5
3 2 2.5 1.5
4 3 0.7 0.7
5 3 1.6 4.0
6 3 2.1 5.1
7 1 1.2 2.4
8 1 1.5 2.5
9 1 1.6 2.6
10 2 2.0 1.5
因此 (2,1) != (3,1) 它们可能包含不同的长度或不同的值
我的数据很大,25000 行 因此我不能确定 (2,1) 不会出现多次,所以我不能使用长度作为唯一值键
我正在努力合并这些数据而不合并所有这些值,因为当您使用
df.groupby['col a']
它将所有的 1 放在一起。
谢谢
编辑以澄清预期结果并提供更多信息
【问题讨论】:
-
预期输出是什么?
-
预期的结果是合并相互靠近但不与其他行合并的col A行
标签: python-3.x pandas pandas-groupby