【发布时间】:2016-04-18 19:38:45
【问题描述】:
我已经尝试过四处搜索,但找不到一个简单的方法来做到这一点,所以我希望你的专业知识能提供帮助。
我有一个包含两列的 pandas 数据框
import numpy as np
import pandas as pd
pd.options.display.width = 1000
testing = pd.DataFrame({'NAME':[
'FIRST', np.nan, 'NAME2', 'NAME3',
'NAME4', 'NAME5', 'NAME6'], 'FULL_NAME':['FIRST LAST', np.nan, 'FIRST LAST', 'FIRST NAME3', 'FIRST NAME4 LAST', 'ANOTHER NAME', 'LAST NAME']})
这给了我
FULL_NAME NAME
0 FIRST LAST FIRST
1 NaN NaN
2 FIRST LAST NAME2
3 FIRST NAME3 NAME3
4 FIRST NAME4 LAST NAME4
5 ANOTHER NAME NAME5
6 LAST NAME NAME6
我想做的是从“NAME”列中获取值,然后从“FULL NAME”列中删除(如果存在)。所以函数会返回
FULL_NAME NAME NEW
0 FIRST LAST FIRST LAST
1 NaN NaN NaN
2 FIRST LAST NAME2 FIRST LAST
3 FIRST NAME3 NAME3 FIRST
4 FIRST NAME4 LAST NAME4 FIRST LAST
5 ANOTHER NAME NAME5 ANOTHER NAME
6 LAST NAME NAME6 LAST NAME
到目前为止,我已经在下面定义了一个函数,并且正在使用 apply 方法。不过,这在我的大型数据集上运行相当慢,我希望有一种更有效的方法来做到这一点。谢谢!
def address_remove(x):
try:
newADDR1 = re.sub(x['NAME'], '', x[-1])
newADDR1 = newADDR1.rstrip()
newADDR1 = newADDR1.lstrip()
return newADDR1
except:
return x[-1]
【问题讨论】:
标签: python string pandas replace series