使用正则表达式搜索和过滤 pandas 数据框答案

【问题标题】：Search and filter pandas dataframe with regular expressions使用正则表达式搜索和过滤 pandas 数据框
【发布时间】：2015-12-13 09:07:09
【问题描述】：

感谢您的帮助。我有一个熊猫数据框。我想使用正则表达式搜索数据框的 3 列，然后返回所有符合搜索条件的行，按我的列之一排序。我想把它写成一个函数，所以如果可能的话，我可以用其他标准来实现这个逻辑，但我不太确定如何做到这一点。

例如，我知道如何提取搜索结果（col1 是列名）：

idx1 = df.col1.str.contains(r'vhigh|high', flags=re.IGNORECASE, regex=True, na=False)

print df[~idx1]

但我不知道如何采取这种类型的操作，并使用多列执行它然后排序。有人有什么建议吗？

【问题讨论】：

如何执行上面显示的操作但遍历每一列。然后将结果索引存储为集合；最后，您可以找到最终所需行的集合的交集。

标签： python regex pandas

【解决方案1】：

您可以使用apply 使代码更简洁。例如，给定这个 DataFrame：

df = pd.DataFrame(
    {
        'col1': ['vhigh', 'low', 'vlow'],
        'col2': ['eee', 'low', 'high'],
        'val': [100,200,300]
    }
)
print df

输入：

    col1  col2  val
0  vhigh   eee  100
1    low   low  200
2   vlow  high  300

您可以在col1 或col2 列中选择包含字符串vhigh 或high 的所有行，如下所示：

mask = df[['col1', 'col2']].apply(
    lambda x: x.str.contains(
        'vhigh|high',
        regex=True
    )
).any(axis=1)
print df[mask]

apply 函数在每一列上应用contains 函数（因为默认情况下axis=0）。 any 函数返回一个布尔掩码，其中元素 True 表示至少有一个列满足搜索条件。然后可以使用它对原始 DataFrame 执行选择。

输出：

    col1  col2  val
0  vhigh   eee  100
2   vlow  high  300

然后，按列对结果进行排序，例如val 列，您可以这样做：

df[mask].sort('val')

【讨论】：

这正是我想要的。我对 lambda 函数不是很熟悉，所以这真的很有用。你能给我指出一些可以解释最后一个命令的语法的东西吗：df[mask]我不熟悉括号的使用。
方括号的特殊用法称为Boolean indexing。同一页面包含有关索引和选择数据的其他方式的信息，值得一读。
尝试解释：mask 是一个新创建的系列，它为 df 中的每一行保存一个 True/False 值。 df[mask] 导致过滤行并根据掩码列仅显示那些为 True 的行。通常，我们将它们分配给同一 df 本身的新列。而且我认为.sort('val') 现在已弃用.. 改为使用df[mask].sort_values('val')。