一、背景说明
自从整理了“正则表达式书写规则说明”后,使用正则表达式的地方都基本能应对。唯一搞不清的是不懂为什么re.search的还要用group()才能获取匹配的结果(而且是group这么个感觉和获取字符串完全不搭边的名字),正是没搞清的这点留下了很大的隐患。
上周同事问正则中重复次数只能作用于其前边的那一个字符,如何能让重复次数能作用于其前边的多个字符,自己信心满满地说加括号就完事了,比如ab*就写成(ab)*,但同事说不行。回头进行验证发现这种写法在findall中确实有问题。
二、问题示例
需求:从一段文字中提取出所有版本号。
测试代码如下:
import re # 包含版本号的一段文字 text = "1.2.3 and 1.2.4" # 设想中的正则写法。一个数字开头,后边的.加数值重复一次或多次 regex = "\d(\.\d)+" # 输出结果为'1.2.3',与预期结果一致 print(re.search(regex, text).group()) # 预期结果为['1.2.3', '1.2.4'] # 实际结果为['.3', '.4'] print(re.findall(regex, text))
运行结果如下,search输出结果符合预期,但findall输出结果为['.3', '.4']和预想的['1.2.3', '1.2.4']完全不一样:
三、处理办法
多番google后找到这篇文章,说可以用?:进行处理,使用?:去掉其外一层括号的标识作用只保留其分组作用即可解决该问题。
代码修改如下:
import re # 包含版本号的一段文字 text = "1.2.3 and 1.2.4" # 设想中的正则写法。一个数字开头,后边的.加数值重复一次或多次 regex = "\d(?:\.\d)+" # 输出结果为'1.2.3',与预期结果一致 print(re.search(regex, text).group()) # 输出结果为['1.2.3', '1.2.4'],与预期一致 print(re.findall(regex, text))