【发布时间】:2021-07-27 09:24:48
【问题描述】:
要提取长度 >4 的数字,使用数据框列中的正则表达式,我有以下几行:
import pandas as pd
data = {'Company': ["0652369- INTER SUPPORT LLP, 202011",
"CIRCLE TRADING LTD 1-593616, 2020-06, 0201",
"Area Food Service Co., Ltd.-6958047, 2020-07"]}
df = pd.DataFrame(data)
df['co'] = df['Company'].str.extract('(\d+).{5,}')
print (df['co'])
输出:
0 0652369
1 1
2 6958047
第二行不正确,它将返回“593616”。
正确的写法是什么?谢谢。
【问题讨论】: