【发布时间】:2019-05-29 06:39:46
【问题描述】:
我有要使用正则表达式清理的文本数据。但是,文本中的某些单词后面紧跟着我要删除的数字。
例如,一行文字是:
前言2 贡献者4 缩写5 致谢8 Pes 术语 10 RUPES 项目的经验教训 12 越南环境服务及其潜力和范例16 章将生态系统服务支付纳入越南政策 和计划 17 章 为 Tri An 流域创造激励 protection20 章景观美的可持续融资 白马国家公园24章建立碳支付机制 Hoa 的 Cao Phong 区的林业封存试点项目 越南平省26 第 5 章地方收入分享 芽庄湾 越南海洋保护区28 综合和建议30 参考文献32
以上文本中的第一个单词应该是'preface'而不是'preface2'等等。
line = re.sub(r"[A-Za-z]+(\d+)", "", line)
但是,这会删除单词以及所见:
Pes 从 RUPES 支付环境服务中吸取的经验教训 以及集成支付一章中的潜力和示例 生态系统服务纳入越南政策和章节创建激励 Tri An 流域章节可持续景观融资 白马国家公园之美第24章建立支付机制 Cao Phong 林业碳封存试点项目 华平省第 5 章地方收入分享 Nha 董里湾海洋保护区综合与
我怎样才能只捕捉紧跟单词的数字?
【问题讨论】:
标签: python regex regex-group