【问题标题】:How to use RE OR Operand for Pandas RE .str.extract()如何为 Pandas RE .str.extract() 使用 RE OR Operand
【发布时间】:2018-08-21 14:15:50
【问题描述】:

我是新手,我确信这在我的代码中很愚蠢。在我的辩护中,我尝试在询问和搜索之前重新阅读 Python RE 文档 here,但到目前为止没有看到重复的问题(这让我感到惊讶。)

在 DataFrame 之外,我在这里有我正在工作的示例:

x = 'my best friend's birthday is 24 Jan 2001.'
print(re.findall('\d{1,2}\s(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d{2,4}', x))
<Anaconda console returns:> 24 Jan 2001

但在我的 Dataframe (df1) 中,我有以下内容:

index     text
0         My birthday is 2/21/19
1         Your birthday is 4/1/20
2         my best friend's birthday is 24 Jan 2001.   

当我运行以下代码时:

df1['dates'] = df1['text'].str.extract('.*?(\d+[/-]\d+[/-]?\d*).*?|\d{1,2}\s(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d+')
print('df1['dates'])

我得到以下结果:

     dates
0    2/21/19
1    4/1/20
2    NaN

我尝试过使用括号,重新阅读文档以及其他一些导致无穷无尽的错误的调整。我确定这是一个明显的错误,但我没有看到。有人可以帮忙吗?谢谢。

【问题讨论】:

    标签: python regex pandas date operands


    【解决方案1】:

    在 pandas 中使用 .extract() 时必须有一个捕获组。您在 OR 之前的捕获组 | 正在查找带有斜杠的日期。但是在 OR 之后,你只有一个非捕获组。

    这里我在整个搜索模式周围放置了一个捕获,并且OR的每一边也有一个非捕获组。

    import pandas as pd
    
    df = pd.DataFrame({'text': ['My birthday is 2/21/19', 
        'Your birthday is 4/1/20', 
        'my best friend\'s birthday is 24 Jan 2001.']})
    
    df.text.str.extract(
        r'((:?\d+[/-]\d+[/-]?\d*)|' + 
        r'(:?\d{1,2}\s(:?Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d+))', 
        expand=False)[0]
    
    # returns:
    0        2/21/19
    1         4/1/20
    2    24 Jan 2001
    

    【讨论】:

    • James,我在摘录的第一个 re 语句中为您的代码添加了一个右括号,以使其按预期工作。您的回答对我帮助很大,谢谢:r'((:?(\d+[/-]\d+[/-]?\d*))|' +
    猜你喜欢
    • 1970-01-01
    • 2012-09-08
    • 2018-01-05
    • 1970-01-01
    • 1970-01-01
    • 2015-12-11
    • 1970-01-01
    • 2019-12-16
    • 2017-05-31
    相关资源
    最近更新 更多