【问题标题】:Search and filter pandas dataframe with regular expressions使用正则表达式搜索和过滤 pandas 数据框
【发布时间】:2015-12-13 09:07:09
【问题描述】:

感谢您的帮助。我有一个熊猫数据框。我想使用正则表达式搜索数据框的 3 列,然后返回所有符合搜索条件的行,按我的列之一排序。我想把它写成一个函数,所以如果可能的话,我可以用其他标准来实现这个逻辑,但我不太确定如何做到这一点。

例如,我知道如何提取搜索结果(col1 是列名):

idx1 = df.col1.str.contains(r'vhigh|high', flags=re.IGNORECASE, regex=True, na=False)

print df[~idx1]

但我不知道如何采取这种类型的操作,并使用多列执行它然后排序。有人有什么建议吗?

【问题讨论】:

  • 如何执行上面显示的操作但遍历每一列。然后将结果索引存储为集合;最后,您可以找到最终所需行的集合的交集。

标签: python regex pandas


【解决方案1】:

您可以使用apply 使代码更简洁。例如,给定这个 DataFrame:

df = pd.DataFrame(
    {
        'col1': ['vhigh', 'low', 'vlow'],
        'col2': ['eee', 'low', 'high'],
        'val': [100,200,300]
    }
)
print df

输入:

    col1  col2  val
0  vhigh   eee  100
1    low   low  200
2   vlow  high  300

您可以在col1col2 列中选择包含字符串vhighhigh 的所有行,如下所示:

mask = df[['col1', 'col2']].apply(
    lambda x: x.str.contains(
        'vhigh|high',
        regex=True
    )
).any(axis=1)
print df[mask]

apply 函数在每一列上应用contains 函数(因为默认情况下axis=0)。 any 函数返回一个布尔掩码,其中元素 True 表示至少有一个列满足搜索条件。然后可以使用它对原始 DataFrame 执行选择。

输出:

    col1  col2  val
0  vhigh   eee  100
2   vlow  high  300

然后,按列对结果进行排序,例如val 列,您可以这样做:

df[mask].sort('val')

【讨论】:

  • 这正是我想要的。我对 lambda 函数不是很熟悉,所以这真的很有用。你能给我指出一些可以解释最后一个命令的语法的东西吗:df[mask]我不熟悉括号的使用。
  • 方括号的特殊用法称为Boolean indexing。同一页面包含有关索引和选择数据的其他方式的信息,值得一读。
  • 尝试解释:mask 是一个新创建的系列,它为 df 中的每一行保存一个 True/False 值。 df[mask] 导致过滤行并根据掩码列仅显示那些为 True 的行。通常,我们将它们分配给同一 df 本身的新列。而且我认为.sort('val') 现在已弃用.. 改为使用df[mask].sort_values('val')
猜你喜欢
  • 2016-06-08
  • 1970-01-01
  • 2019-02-21
  • 2020-03-21
  • 2021-10-22
  • 2014-04-12
  • 2016-09-02
  • 2018-08-24
  • 1970-01-01
相关资源
最近更新 更多