【发布时间】:2021-12-05 19:55:24
【问题描述】:
我需要 Python Pandas 数据框的正则表达式方面的帮助。 测试字符串是:
s = pd.Series(['xslF345X03/was-form4_163347386959085.xml', 'xslF345X03/wf-form4_163347386959085.xmlasdf', 'xslF345/X03/wf-form4_163347386959085.xml'])
我想:
- 从最后一个 '/' 开始提取到最后的 '.xml'
- 仅在字符串以 '.xml' 结尾时提取
所以我得到这样的东西:
xslF345X03/was-form4_163347386959085.xml Extract: /was-form4_163347386959085.xml
xslF345X03/wf-form4_163347386959085.xmlasdf Do not extract because the ending is not .xml
xslF345/X03/wf-form4_163347386959085.xml Extract starting from the last '/' character: /wf-form4_163347386959085.xml
我想我需要遵循 pandas 代码来使用正则表达式进行提取:
s.str.extract(...)
提前谢谢你:-)
【问题讨论】: