【发布时间】:2019-11-20 11:10:46
【问题描述】:
我有一个给定的字符串列表,如下所示:
List=['plastic', 'carboard', 'wood']
我的数据框中有一列 dtype 字符串,如下所示:
Column=['beer plastic', 'water cardboard', 'eggs plastic', 'fruits wood']
对于列中的每一行,我想知道该行是否包含列表中的一个单词,如果是,我想只保留该单词之前的文本,如下所示:
New_Column=['beer', 'water', 'eggs', 'fruits']
有没有办法对我的数据框的每一行(数百万行)进行系统化?谢谢
PS。我试过用正则表达式模式匹配这样的函数来构建一个函数
pattern=re.compile('**Pattern to be defined to include element from list**')
def truncate(row, pattern):
Column=row['Column']
if bool(pattern.match(Column)):
Column=Column.replace(**word from list**,"")
return Column
df['New_column']=df.apply(truncate,axis=1, pattern=pattern)
【问题讨论】: