Pandas 在由列表组成的元素上放置重复项答案

【问题标题】：Pandas drop duplicates on elements made of listsPandas 在由列表组成的元素上放置重复项
【发布时间】：2018-10-29 07:08:37
【问题描述】：

假设我的数据框是：

df = pandas.DataFrame([[[1,0]],[[0,0]],[[1,0]]])

产生：

        0
0  [1, 0]
1  [0, 0]
2  [1, 0]

如果我写的话，我想删除重复项，并且只获取元素 [1,0] 和 [0,0]：

df.drop_duplicates()

我收到以下错误：TypeError: unhashable type: 'list'

如何调用 drop_duplicates()？

更笼统地说：

df = pandas.DataFrame([[[1,0],"a"],[[0,0],"b"],[[1,0],"c"]], columns=["list", "letter"])

我想调用 df["list"].drop_duplicates()，所以 drop_duplicates 适用于系列而不是数据框？

【问题讨论】：

【解决方案1】：

你可以使用numpy.unique()函数：

>>> df = pandas.DataFrame([[[1,0]],[[0,0]],[[1,0]]])
>>> pandas.DataFrame(np.unique(df), columns=df.columns)
        0
0  [0, 0]
1  [1, 0]

【讨论】：

【解决方案2】：

在元组数据上调用drop_duplicates：

df[0].apply(tuple, 1).drop_duplicates().apply(list).to_frame()

        0
0  [1, 0]
1  [0, 0]

不过，我更喜欢不涉及apply...

from collections import OrderedDict
pd.Series(map(
    list, (OrderedDict.fromkeys(map(tuple, df[0].tolist()))))
).to_frame()

或者，

pd.Series(
    list(k) for k in OrderedDict.fromkeys(map(tuple, df[0].tolist()))
).to_frame()

        0
0  [1, 0]
1  [0, 0]

【讨论】：

【解决方案3】：

这是一种方法，将您的一系列列表转换为单独的列，并且只保留非重复项：

df[~df[0].apply(pandas.Series).duplicated()]

        0
0  [1, 0]
1  [0, 0]

说明：

df[0].apply(pandas.Series) 返回：

您可以从中找到重复项：

>>> df[0].apply(pd.Series).duplicated()
0    False
1    False
2     True

最后使用那个索引

【讨论】：

【解决方案4】：

我尝试了其他答案，但没有解决我需要的问题（具有多个列表列的大型数据框）。

我是这样解决的：

df = df[~df.astype(str).duplicated()]

【讨论】：