Python3正则表达式search和findall差异讨论

一、背景说明

自从整理了“正则表达式书写规则说明”后，使用正则表达式的地方都基本能应对。唯一搞不清的是不懂为什么re.search的还要用group()才能获取匹配的结果（而且是group这么个感觉和获取字符串完全不搭边的名字），正是没搞清的这点留下了很大的隐患。

上周同事问正则中重复次数只能作用于其前边的那一个字符，如何能让重复次数能作用于其前边的多个字符，自己信心满满地说加括号就完事了，比如ab*就写成(ab)*，但同事说不行。回头进行验证发现这种写法在findall中确实有问题。

二、问题示例

需求：从一段文字中提取出所有版本号。

测试代码如下：

import re

# 包含版本号的一段文字
text = "1.2.3 and 1.2.4"
# 设想中的正则写法。一个数字开头，后边的.加数值重复一次或多次
regex = "\d(\.\d)+"

# 输出结果为'1.2.3'，与预期结果一致
print(re.search(regex, text).group())
# 预期结果为['1.2.3', '1.2.4']
# 实际结果为['.3', '.4']
print(re.findall(regex, text))

运行结果如下，search输出结果符合预期，但findall输出结果为['.3', '.4']和预想的['1.2.3', '1.2.4']完全不一样：

Python3正则表达式search和findall差异讨论

三、处理办法

多番google后找到这篇文章，说可以用?:进行处理，使用?:去掉其外一层括号的标识作用只保留其分组作用即可解决该问题。

代码修改如下：

import re

# 包含版本号的一段文字
text = "1.2.3 and 1.2.4"
# 设想中的正则写法。一个数字开头，后边的.加数值重复一次或多次
regex = "\d(?:\.\d)+"

# 输出结果为'1.2.3'，与预期结果一致
print(re.search(regex, text).group())
# 输出结果为['1.2.3', '1.2.4']，与预期一致
print(re.findall(regex, text))

View Code