根据列中的字符串过滤数据框[重复]答案

【问题标题】：Filter dataframe based on string within column [duplicate]根据列中的字符串过滤数据框[重复]
【发布时间】：2019-12-27 05:15:09
【问题描述】：

所以为了简单起见，因为我的数据集非常大，假设我有一个数据框：

df = pd.DataFrame([['Foo', 'Foo1'], ['Bar', 'Bar2'], ['FooBar', 'FooBar3']],
columns= ['Col_A', 'Col_B'])

当指定的列行包含部分、不区分大小写的字符串 (foo) 时，我需要以一种可以消除整行的方式过滤此数据帧。在这种情况下，我尝试这样做无济于事......PS，我的正则表达式技能很垃圾，所以如果它因为这个原因不起作用，请原谅我。

df = df[df['Col_A'] != '^[Ff][Oo][Oo].*']

由于我的数据集的大小，效率是一个问题，这就是我没有选择迭代路线的原因。提前致谢。

【问题讨论】：

【解决方案1】：

另一种方法是将str.startswith 与str.lower 和NOT 运算符一起使用~：

df[~df['Col_A'].str.lower().str.startswith('foo')]

输出

  Col_A Col_B
1   Bar  Bar2

【讨论】：

【解决方案2】：

使用str.match

df[~df['Col_A'].str.match('^[Ff][Oo][Oo].*')]

结果

    Col_A   Col_B
1   Bar     Bar2

【讨论】：