Pandas - 检查列表列中的字符串列是否按行排列答案

【问题标题】：Pandas - Check if column of strings in column of lists row wisePandas - 检查列表列中的字符串列是否按行排列
【发布时间】：2019-11-11 07:11:47
【问题描述】：

我有一个数据框，你可以用它来构建：

dflist=[['123',['abc','qw3','123']],
        ['ab12',['3e4r5','12we3','asd23','q2w3']]]
df=pd.DataFrame(dflist,columns=['check','checklist'])

看起来像这样：

  check                    checklist
0   123              [abc, qw3, 123]
1  ab12  [3e4r5, 12we3, asd23, q2w3]

我想检查“check”列中的项目是否在“checklist”列的列表中。所以我希望生成的数据框看起来像：

  check                    checklist checkisin
0   123              [abc, qw3, 123]      True
1  ab12  [3e4r5, 12we3, asd23, q2w3]     False

我尝试了几件事，包括以各种形式使用 .isin，包括 apply/lambda。并且直接。

这个：

df['checkisin']=df.check.isin(df.checklist)

产生：

  check                    checklist  checkisin
0   123              [abc, qw3, 123]      False
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

其中有两个 False。

试试这个： df['checkisin']=df.apply(lambda x:x.check.isin(x.checklist)) 给出这个错误：

AttributeError: ("'Series' object has no attribute 'check'", 'occurred at index check')

试试这个：

df['checkisin']=df.apply(lambda x:x['check'] in x.checklist)

给出这个错误：

KeyError: ('check', 'occurred at index check')

我确定我在这里遗漏了一些简单的东西。我知道我可以循环这个，但是寻找一个 Pandas Dataframe 列明智的解决方案，因为我拥有的 DF 非常大并且试图“最”有效地处理。

谢谢！

【问题讨论】：

标签： python pandas list dataframe apply

【解决方案1】：

您有一列列表，当然，pandas 没有任何函数可以原生支持对结构如此糟糕的数据的操作。如果您想要最高性能，我建议您使用列表理解：

df['checkisin'] = [c in l for c, l in zip(df['check'], df['checklist'])]
df
  check                    checklist  checkisin
0   123              [abc, qw3, 123]       True
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

如果您担心 NaN 和类型不匹配，可以考虑实施 try-except 错误处理：

def check_isin(check, checklist):
    try:
        return check in checklist
    except TypeError:
        return np.NaN

df['checkisin'] = [
    check_isin(c, l) for c, l in zip(df['check'], df['checklist'])
]

Evidence suggests 列表推导是无法向量化操作的最理想选择。

PS，如果您打算进行大量成员资格测试，请考虑将您的列表列转换为集合列。

这是一个如何矢量化此操作的示例。

from itertools import chain

cl = df.pop('checklist')
df = (pd.DataFrame(df.reset_index().values.repeat(cl.str.len(), axis=0), 
                   columns=['group', *df.columns])
        .assign(checklist=list(chain.from_iterable(cl))))

df

   group check checklist
0      0   123       abc
1      0   123       qw3
2      0   123       123
3      1  ab12     3e4r5
4      1  ab12     12we3
5      1  ab12     asd23
6      1  ab12      q2w3
7      1  ab12       123

(df['check'] == df['checklist']).groupby(df.group).any()

group
0     True
1    False
dtype: bool

【讨论】：

列中有列表的用例很多。就我而言，列表可能很长，因此将每个项目放在自己的列中是行不通的。此外，列表可以是非常不同的大小。在这种情况下，您会建议如何构建数据？将每个列表都设为字符串并使用 .contains 会更好吗？
@clg4 我认为这也行不通，因为您需要进行逐行比较（str.contains 不能这样做）。我已经根据我对如何构建数据以及如何使用 groupby 进行矢量化的建议来编辑我的答案。 PS，您将需要添加一个额外的列来识别组。见上文。
我在路上。当我回到实验室时，我会看看这些。敬请期待，谢谢
@clg4 如果你想分配回来，你应该使用transform：df['checkisin'] = (df['check'] == df['checklist']).groupby(df['group']).transform('any')
好的，一切正常。为 10,000 行 df 的所有答案添加了 timeits。回答 1）62.2u，2 带错误检查）84.2u，3 矢量化）1200u。所以对你来说，前两个看起来最好。谢谢，敬请期待获胜者。

【解决方案2】：

我将使用isin 和Series，isin 和Series 将首先匹配index，这与list 不同

pd.DataFrame(df.checklist.tolist(),index=df.index).isin(df.check).any(1)
Out[496]: 
0     True
1    False
dtype: bool

或者

pd.DataFrame(df.checklist.tolist(),index=df.index).eq(df.check,0).any(1)

【讨论】：

@cs95 我检查它是否与 eq 相同 ...所以应该可以工作
我不知道 df.isin 只检查行...直到！
@cs95 仅在通过系列时:-)
有趣，从我的测试看来 eq 比 isin 稍快，但都比 list comps 稍慢。
@cs95 为真匹配后端的索引几乎等于for循环

【解决方案3】：

`map`

df.assign(checkisin=[*map(lambda s, x: s in x, *map(df.get, df))])

  check                    checklist  checkisin
0   123              [abc, qw3, 123]       True
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

如果你的数据框有更多的列，你可以更明确

cols = ['check', 'checklist']
df.assign(checkisin=[*map(lambda s, x: s in x, *map(df.get, cols))])

【讨论】：

timeit of 146u 这么慢但有效！投票但必须让@cs95 获胜。谢谢。
但我赢在风格，对吧？！告诉我我以风格取胜，否则我的自尊心受不了。如果不是因为@cs95 /drats 的干预，我也会赢得速度比赛

【解决方案4】：

你可以试试：

df['checkisin'] = [v in df.checklist[i] for i, v in enumerate(df.check)]

或：

df['checkisin'] = [i in j for i, j in zip(df.check, df.checklist)]

或：

df['checkisin'] = list(map(lambda i, j: i in j, df.check, df.checklist))

或者（如果你喜欢df.assign）：

df.assign(checkisin=[*map(lambda i, j: i in j, df.check, df.checklist)])

结果：

  check                    checklist  checkisin
0   123              [abc, qw3, 123]       True
1  ab12  [3e4r5, 12we3, asd23, q2w3]      False

【讨论】：

为您在 10000 行数据帧上的选项添加了时间。所有选项都有效。 1 次枚举）628u，2 zip）125u，3 地图）93.4u 4 分配）238u。所有的工作，但都比@cs95 更多的时间。所以点赞和感谢，但 cs95 是赢家……