【发布时间】:2016-07-01 22:26:01
【问题描述】:
考虑以下 pandas 数据框:
In [114]:
df['movie_title'].head()
Out[114]:
0 Toy Story (1995)
1 GoldenEye (1995)
2 Four Rooms (1995)
3 Get Shorty (1995)
4 Copycat (1995)
...
Name: movie_title, dtype: object
更新:
我想用正则表达式提取电影的标题。因此,让我们使用以下正则表达式:\b([^\d\W]+)\b。所以我尝试了以下方法:
df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']
但是,我得到以下信息:
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
知道如何从 pandas 数据框中的文本中提取特定特征吗?更具体地说,如何在全新的数据框中仅提取电影的标题?例如,期望的输出应该是:
Out[114]:
0 Toy Story
1 GoldenEye
2 Four Rooms
3 Get Shorty
4 Copycat
...
Name: movie_title, dtype: object
【问题讨论】:
标签: python regex string python-2.7 pandas