一、背景说明

自从整理了“正则表达式书写规则说明”后,使用正则表达式的地方都基本能应对。唯一搞不清的是不懂为什么re.search的还要用group()才能获取匹配的结果(而且是group这么个感觉和获取字符串完全不搭边的名字),正是没搞清的这点留下了很大的隐患。

上周同事问正则中重复次数只能作用于其前边的那一个字符,如何能让重复次数能作用于其前边的多个字符,自己信心满满地说加括号就完事了,比如ab*就写成(ab)*,但同事说不行。回头进行验证发现这种写法在findall中确实有问题。

 

二、问题示例

需求:从一段文字中提取出所有版本号。

测试代码如下:

import re

# 包含版本号的一段文字
text = "1.2.3 and 1.2.4"
# 设想中的正则写法。一个数字开头,后边的.加数值重复一次或多次
regex = "\d(\.\d)+"

# 输出结果为'1.2.3',与预期结果一致
print(re.search(regex, text).group())
# 预期结果为['1.2.3', '1.2.4']
# 实际结果为['.3', '.4']
print(re.findall(regex, text))

运行结果如下,search输出结果符合预期,但findall输出结果为['.3', '.4']和预想的['1.2.3', '1.2.4']完全不一样:

Python3正则表达式search和findall差异讨论

 

三、处理办法

多番google后找到这篇文章,说可以用?:进行处理,使用?:去掉其外一层括号的标识作用只保留其分组作用即可解决该问题。

代码修改如下:

import re

# 包含版本号的一段文字
text = "1.2.3 and 1.2.4"
# 设想中的正则写法。一个数字开头,后边的.加数值重复一次或多次
regex = "\d(?:\.\d)+"

# 输出结果为'1.2.3',与预期结果一致
print(re.search(regex, text).group())
# 输出结果为['1.2.3', '1.2.4'],与预期一致
print(re.findall(regex, text))
View Code

相关文章:

  • 2021-06-11
  • 2022-02-23
  • 2022-03-01
  • 2022-03-05
  • 2022-03-07
  • 2021-11-27
  • 2021-05-24
猜你喜欢
  • 2022-01-21
  • 2022-12-23
  • 2022-12-23
  • 2021-12-10
  • 2021-05-18
  • 2022-12-23
  • 2021-06-11
相关资源
相似解决方案