【发布时间】:2014-05-20 03:10:13
【问题描述】:
如何删除 DataFrame 中连续/连续/相邻的重复项?
我正在处理 CSV 格式的数据,按日期排序,然后按识别号排序。识别号可以出现在不同的日子,但我只想删除每日重复的。 drop_duplicates 留下一个唯一的实例,但随后在所有其他日子删除该标识符。我试过this,但得到错误:
localhost:~/Desktop/Public$ python3 test.py
Traceback (most recent call last):
File "test.py", line 31, in <module>
df2.loc[df2.shift(1) != df2]
File "/usr/lib/python3/dist-packages/pandas/core/indexing.py", line 1028, in __getitem__
return self._getitem_axis(key, axis=0)
File "/usr/lib/python3/dist-packages/pandas/core/indexing.py", line 1148, in _getitem_axis
raise ValueError('Cannot index with multidimensional key')
ValueError: Cannot index with multidimensional key
编辑原帖添加:
我尝试使用 index_reset() 删除任何多索引。这是数据集的示例:
,DATE,REC,NAME
0,07/02/2009,682566,"Schmoe, Joe"
1,07/02/2009,244828,"Doe, Joe"
2,07/11/2009,325640,"Black, Joe"
3,07/11/2009,544440,"Dirt, Joe"
4,07/11/2009,544440,"Dirt, Joe"
5,07/16/2009,200560,"White, Joe"
6,07/16/2009,685370,"Purple, Joe"
7,07/16/2009,685370,"Purple, Joe"
8,07/16/2009,635400,"Red, Joe"
9,07/16/2009,348562,"Blue, Joe
【问题讨论】:
-
我认为
df2.drop_duplicates(['id_no','date'])对你有用(或任何你的识别号码)。 -
展示一个数据集的例子会很有帮助,而且,你在使用
MultiIndex吗? -
好吧,我觉得自己像个白痴... drop_duplicates(['REC', 'DATE']) 有效... 但是,原来的问题仍然困扰着我,我敢肯定同样的问题会再次出现。数据样本即将推出。
标签: python pandas duplicates dataframe contiguous