如何从包含文本的熊猫数据框中的列中提取年份（或日期时间）答案

【问题标题】：How to extract year (or datetime) from a column in a pandas dataframe that contains text如何从包含文本的熊猫数据框中的列中提取年份（或日期时间）
【发布时间】：2019-04-18 21:27:16
【问题描述】：

假设我有一个 pandas 数据框：

Id    Book                      
1     Harry Potter (1997)
2     Of Mice and Men (1937)
3     Babe Ruth Story, The (1948)   Drama   948)    Babe Ruth Story

如何从列中提取年份？

输出应该是：

Id    Book Title               Year
1     Harry Potter             1997
2     Of Mice and Men          1937
3     Babe Ruth Story, The     1948

到目前为止我已经尝试过：

movies['year'] = movies['title'].str.extract('([0-9(0-9)]+)', expand=False).str.strip()

和

books['year'] = books['title'].str[-5:-1]

我搞砸了一些其他的事情，还没有让它工作。有什么建议吗？

【问题讨论】：

标签： python regex pandas datetime parsing

【解决方案1】：

一个简单的正则表达式怎么样：

text = 'Harry Potter (1997)'
re.findall('\((\d{4})\)', text)
# ['1997'] Note that this is a list of "all" the occurrences.

使用 Dataframe，可以这样做：

text = 'Harry Potter (1997)'
df = pd.DataFrame({'Book': text}, index=[1])
pattern = '\((\d{4})\)'
df['year'] = df.Book.str.extract(pattern, expand=False) #False returns a series

df
#                  Book   year
# 1  Harry Potter (1997)  1997

最后，如果您真的想将标题和数据分开（在另一个答案中从 Philip 那里重建数据框）：

df = pd.DataFrame(columns=['Book'], data=[['Harry Potter (1997)'],['Of Mice and Men (1937)'],['Babe Ruth Story, The (1948)   Drama   948)    Babe Ruth Story']])

sep = df['Book'].str.extract('(.*)\((\d{4})\)', expand=False)

sep # A new df, separated into title and year
#                       0      1                           
# 0          Harry Potter   1997 
# 1       Of Mice and Men   1937
# 2  Babe Ruth Story, The   1948

【讨论】：

不错！这几乎就是我想要的。如果我这样做，我将不得不使用 for 循环遍历 pandas 系列中的所有值，这非常慢。这帮助我得到了正确的答案，即：books['title'].str.findall('((\d{4}))').str.get(0)
哎呀，我的意思是 df['Books']。我会将您的答案标记为正确。
@MattElgazar 查看我的最新更新以提取标题 =) 感谢有趣的问题；我学到了一些东西来解决这个问题

【解决方案2】：

您可以执行以下操作。

import pandas as pd
df = pd.DataFrame(columns=['id','Book'], data=[[1,'Harry Potter (1997)'],[2,'Of Mice and Men (1937)'],[3,'Babe Ruth Story, The (1948)   Drama   948)    Babe Ruth Story']])

df['Year'] = df['Book'].str.extract(r'(?!\()\b(\d+){1}')

行：导入熊猫
行：创建数据框以方便理解
行：创建一个新列“Year”，该列是从 Book 列上提取的字符串创建的。

使用正则表达式查找数字。我使用https://regex101.com/r/Bid0qA/1，这对理解正则表达式的工作方式有很大帮助。

【讨论】：

这实际上适用于我提出的案例，但不适用于所有案例。请参阅此示例。一些书名 2 (2002)
嗯，我正要给你写信。它确实奏效了。发布更多数据，以便我们有更多的工作。如果您在此过程中添加更多案例，那么实际回答问题会变得更加困难。我已经更新了答案

【解决方案3】：

完整系列的答案实际上是这样的：

books['title'].str.findall('\((\d{4})\)').str.get(0)

【讨论】：