pandas DataFrame删除连续重复[重复]答案

【问题标题】：pandas DataFrame delete contiguous duplicates [duplicate]pandas DataFrame删除连续重复[重复]
【发布时间】：2014-05-20 03:10:13
【问题描述】：

如何删除 DataFrame 中连续/连续/相邻的重复项？

我正在处理 CSV 格式的数据，按日期排序，然后按识别号排序。识别号可以出现在不同的日子，但我只想删除每日重复的。 drop_duplicates 留下一个唯一的实例，但随后在所有其他日子删除该标识符。我试过this，但得到错误：

localhost:~/Desktop/Public$ python3 test.py 
Traceback (most recent call last):
  File "test.py", line 31, in <module>
    df2.loc[df2.shift(1) != df2]
  File "/usr/lib/python3/dist-packages/pandas/core/indexing.py", line 1028, in __getitem__
    return self._getitem_axis(key, axis=0)
  File "/usr/lib/python3/dist-packages/pandas/core/indexing.py", line 1148, in _getitem_axis
    raise ValueError('Cannot index with multidimensional key')
ValueError: Cannot index with multidimensional key

编辑原帖添加：

我尝试使用 index_reset() 删除任何多索引。这是数据集的示例：

,DATE,REC,NAME
0,07/02/2009,682566,"Schmoe, Joe"
1,07/02/2009,244828,"Doe, Joe"
2,07/11/2009,325640,"Black, Joe"
3,07/11/2009,544440,"Dirt, Joe"
4,07/11/2009,544440,"Dirt, Joe"
5,07/16/2009,200560,"White, Joe"
6,07/16/2009,685370,"Purple, Joe"
7,07/16/2009,685370,"Purple, Joe"
8,07/16/2009,635400,"Red, Joe"
9,07/16/2009,348562,"Blue, Joe

【问题讨论】：

我认为df2.drop_duplicates(['id_no','date']) 对你有用（或任何你的识别号码）。
展示一个数据集的例子会很有帮助，而且，你在使用MultiIndex吗？
好吧，我觉得自己像个白痴... drop_duplicates(['REC', 'DATE']) 有效... 但是，原来的问题仍然困扰着我，我敢肯定同样的问题会再次出现。数据样本即将推出。

标签： python pandas duplicates dataframe contiguous

【解决方案1】：

只有当df2 是Series 而不是DataFrame 时，您使用.loc 编制索引的方式才有效。您实际上是在尝试使用 boleens 的数据框进行索引，而 .loc 不知道该怎么做（它试图将其用作多索引）：

>>> df

        DATE     REC         NAME
0 2009-07-02  682566  Schmoe, Joe
1 2009-07-02  244828     Doe, Joe
2 2009-07-11  325640   Black, Joe
3 2009-07-11  544440    Dirt, Joe
4 2009-07-11  544440    Dirt, Joe
5 2009-07-16  200560   White, Joe
6 2009-07-16  685370  Purple, Joe
7 2009-07-16  685370  Purple, Joe
8 2009-07-16  635400     Red, Joe
9 2009-07-16  348562    Blue, Joe

>>> df.shift() != df

    DATE    REC   NAME
0   True   True   True
1  False   True   True
2   True   True   True
3  False   True   True
4  False  False  False
5   True   True   True
6  False   True   True
7  False  False  False
8  False   True   True
9  False   True   True

相反，您想要执行以下操作：

>>> df.loc[df.DATE.shift() != df.DATE]

        DATE     REC         NAME
0 2009-07-02  682566  Schmoe, Joe
2 2009-07-11  325640   Black, Joe
5 2009-07-16  200560   White, Joe

.loc 在这里工作，因为我们只是为索引创建了一个 boleen 系列：

>>> df.DATE.shift() != df.DATE

0     True
1    False
2     True
3    False
4    False
5     True
6    False
7    False
8    False
9    False

当然，这不是您想要的数据。要等效于df.drop_duplicates(['REC','DATE'])，您需要以下内容：

>>>  df.loc[(df.DATE != df.DATE.shift(1)) | (df.REC != df.REC.shift(1))]

        DATE     REC         NAME
0 2009-07-02  682566  Schmoe, Joe
1 2009-07-02  244828     Doe, Joe
2 2009-07-11  325640   Black, Joe
3 2009-07-11  544440    Dirt, Joe
5 2009-07-16  200560   White, Joe
6 2009-07-16  685370  Purple, Joe
8 2009-07-16  635400     Red, Joe
9 2009-07-16  348562    Blue, Joe

与drop_duplicates比较：

>>> df.drop_duplicates(['REC','DATE'])

        DATE     REC         NAME
0 2009-07-02  682566  Schmoe, Joe
1 2009-07-02  244828     Doe, Joe
2 2009-07-11  325640   Black, Joe
3 2009-07-11  544440    Dirt, Joe
5 2009-07-16  200560   White, Joe
6 2009-07-16  685370  Purple, Joe
8 2009-07-16  635400     Red, Joe
9 2009-07-16  348562    Blue, Joe

【讨论】：

谢谢！没想到要在 args 中放两列。