python 正则表达式

字符串的替换（非正则表达式）

>>> s = \'100 NORTH MAIN ROAD\'
>>> s.replace(\'ROAD\', \'RD.\') 
\'100 NORTH MAIN RD.\'

>>> s = \'100 NORTH BROAD ROAD\'
>>> s.replace(\'ROAD\', \'RD.\')  
\'100 NORTH BRD. RD.\'            #replace()会替换全部ROAD 为 RD.

#如果想只替换最后一个ROAD 
>>> s[:-4] + s[-4:].replace(s)
\'100 NORTH BROAD RD.\'

正则表达式方式

>>> s = \'100 NORTH BROAD ROAD\'
>>> import re
>>> re.sub(\'ROAD$\', \'RD.\', s)     # ROAD$ 中 $标明字符串的结尾 即最后一个单词
\'100 NORTH BROAD RD.\'       
>>> re.sub(\'ROAD$\', \'RD.\', s)
\'100 NORTH BROAD RD.\' 

>>> s = \'100 BROAD\'
>>> re.sub(\'ROAD$\', \'RD.\', s)
\'100 BRD.\' 
>>> re.sub(\'\\bROAD\',\'RD\',s)       
#‘\b’意思是“在右边必须有一个分隔符”   为了使起作用 必须加一转义符\'\\'
\'100 BROAD\'
>>> re.sub(r\'\bROAD$\', \'RD.\', s)   
#也可以这样  前面添加一个字符‘r’。它告诉python，字符串中没有任何字符需要转义

#但 如果要替换的字符不在最后 如
>>> s = \'100 BROAD ROAD APT. 3\'
>>> re.sub(r\'\bROAD\b\',\'RD.\',s)    #ROAD前后都加‘\b’表示前后都有一分隔符  即为一单独的单词
\'100 BROAD RD. APT. 3\'

正则表达式检测罗马数字是否合法

在罗马数字中，有七个不同的数字可以以不同的方式结合起来表示其他数字。

I = 1
V = 5
X = 10
L = 50
C = 100
D = 500
M = 1000

罗马数字表示规则（点击查看）

`正则表达式的匹配`

千位的匹配

>>> import re
>>> pattern = \'^M?M?M?$\'             
# \'^\' 表示从字符串头部开始  \'$\'表示一直到字符串结尾  即匹配整个字符串 ?表示M是可选的
>>> re.search(pattern, \'M\')     
<_sre.SRE_Match object at 0106FB58>
>>> re.search(pattern, \'MM\')    
<_sre.SRE_Match object at 0106C290>

re模块最基本的方法是search()函数。它使用正则表达式来匹配字符串（M）。如果成功匹配，search()返回一个匹配对象。如果没有匹配到，search()返回None。

检查百位数

百位有不同的表达方式。

100 = C
200 = CC
300 = CCC
400 = CD
500 = D
600 = DC
700 = DCC
800 = DCCC
900 = CM

因此有四种匹配方式

CM
CD
0-3个C
D + 0-3 C

>>> import re
>>> pattern = \'^M?M?M?(CM|CD|D?C?C?C?)$\'  
>>> re.search(pattern, \'MCM\')             
<_sre.SRE_Match object at 01070390>
>>> re.search(pattern, \'MD\')              
<_sre.SRE_Match object at 01073A50>

>>> re.search(pattern, \'MCMC\')    
#匹配失败 第一个M匹配成功 第二第三个匹配失败 然后匹配CM 成功  之后结束 还剩一个C 无法匹配

使用语法{n,m}简化表达式

pattern = \'^M?M?M?$\' ==== pattern = \'^M{0,3}$\' 意思是“匹配字符串开始，然后是任意的0到3个M字符，再是字符串结尾”。

0 3 可以是任意数字 0表示最低匹配次数 3表示最多匹配次数

检查十位和个位

pattern = \'^M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)$\' #十位匹配

pattern = \'^M?M?M?(CM|CD|D?C?C?C?)(XC|XL|L?X?X?X?)(IX|IV|V?I?I?I?)$\' #个位匹配

使用{n,m}的语法来替代上面的写法会是什么样子呢？下面的例子展示了这种新的语法。

pattern = \'^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$\'

松散正则表达式

松散的正则表达式和普通表达式的区别

空白符被忽略。空格、制表符和回车在正则表达式中并不会匹配空格、制表符、回车。如果你想在正则表达式中匹配他们，可以在前面加一个\来转义。
注释信息被忽略。松散正字表达式中的注释和python代码中的一样，都是以#开头直到行尾。它可以在多行正则表达式中增加注释信息，这就避免了在python代码中的多行注释。他们的工作方式是一样的。

pattern = \'^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$\' 用松散表达式表示为

pattern = \'\'\'
^                   # beginning of string
M{0,3}              # thousands - 0 to 3 Ms
(CM|CD|D?C{0,3})    # hundreds - 900 (CM), 400 (CD), 0-300 (0 to 3 Cs),
                    #            or 500-800 (D, followed by 0 to 3 Cs)
(XC|XL|L?X{0,3})    # tens - 90 (XC), 40 (XL), 0-30 (0 to 3 Xs),
                    #        or 50-80 (L, followed by 0 to 3 Xs)
(IX|IV|V?I{0,3})    # ones - 9 (IX), 4 (IV), 0-3 (0 to 3 Is),
                    #        or 5-8 (V, followed by 0 to 3 Is)
$                   # end of string
\'\'\'

如果要使用松散正则表达式，需要传递一个叫re.VERBOSE的参数

检测时用 re.search(pattern, \'M\', re.VERBOSE)

简单案例----电话号码匹配

下面是可能的电话号码格式：

800-555-1212
800 555 1212
800.555.1212
(800) 555-1212
1-800-555-1212
800-555-1212-1234
800-555-1212x1234
800-555-1212 ext. 1234
work 1-(800) 555.1212 #1234

区域码是800，交换码是555，以及最后的后四码是1212。如果还有分机号，那就是1234

>>>phonePattern = re.compile(r\'^(\d{3})-(\d{3})-(\d{4})$\') #r表示字符串中没有字符需要转义 \d表示任意的数字 \d{3} 则表示任意三个数字中间用-隔开>>>phonePattern.search(\'800-555-1212\').groups()(\'800\', \'555\', \'1212\')

匹配成功 search()函数的返回值调用groups()方法。它会返回一个这个正则表达式中定义的所有分组结果组成的元组。

但是只能匹配 类似\'800-555-1212\' 没有分机号 用-隔开的号码

>>>phonePattern = re.compile(r\'^(\d{3})\D+(\d{3})\D+(\d{4})\D+(\d+)$\') #\D+ 表示至少一个不是数字的任意字符 \d+表示至少一个任意数字可以匹配#这个表达式可以匹配有分号并且号码间有字符隔开的号码>>>phonePattern.search(\'800 555 1212 1234\').groups()(\'800\', \'555\', \'1212\', \'1234\')>>>phonePattern.search(\'800-555-1212-1234\').groups()(\'800\', \'555\', \'1212\', \'1234\')

>>>phonePattern = re.compile(r\'^(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$\')

#正则表达式处理电话号码没有分隔符的情况

#\D* 表示不是数字的任意位数的任意字符 \d*表示任意位数的数字

>>>phonePattern.search(\'800-555-1212\').groups()

(\'800\', \'555\', \'1212\', \'\')

>>>phonePattern.search(\'work 1-(800) 555.1212 #1234\') #但是头部有其它非数字字符的号码无法匹配

>>>

>>>phonePattern = re.compile(r\'(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$\') #去掉^ 跳过无关字符从数字开始匹配>>> phonePattern.search(\'work 1-(800) 555.1212 #1234\').groups()(\'800\', \'555\', \'1212\', \'1234\')>>> phonePattern.search(\'800-555-1212\')(\'800\', \'555\', \'1212\', \'\')>>> phonePattern.search(\'80055512121234\')(\'800\', \'555\', \'1212\', \'1234\')

把它改写成松散正则表达式

>>> phonePattern = re.compile(r\'\'\'
                # don\'t match beginning of string, number can start anywhere
    (\d{3})     # area code is 3 digits (e.g. \'800\')
    \D*         # optional separator is any number of non-digits
    (\d{3})     # trunk is 3 digits (e.g. \'555\')
    \D*         # optional separator
    (\d{4})     # rest of number is 4 digits (e.g. \'1212\')
    \D*         # optional separator
    (\d*)       # extension is optional and can be any number of digits
    $           # end of string
    \'\'\', re.VERBOSE)
>>> phonePattern.search(\'work 1-(800) 555.1212 #1234\').groups()  
(\'800\', \'555\', \'1212\', \'1234\')
>>> phonePattern.search(\'800-555-1212\')                          
(\'800\', \'555\', \'1212\', \'\')

正则表达式一些小的技巧：

^ 匹配字符串开始位置。
$ 匹配字符串结束位置。
\b 匹配一个单词边界。
\d 匹配一个数字。
\D 匹配一个任意的非数字字符。
x? 匹配可选的x字符。换句话说，就是0个或者1个x字符。
x* 匹配0个或更多的x。
x+ 匹配1个或者更多x。
x{n,m} 匹配n到m个x，至少n个，不能超过m个。
(a|b|c) 匹配单独的任意一个a或者b或者c。
(x) 这是一个组，它会记忆它匹配到的字符串。你可以用re.search返回的匹配对象的groups()函数来获取到匹配的值。
[sxz] 的意思是： “s、 x 或 z”，但只匹配其中之一。
[^abc] 的意思是：“ 除了a、 b 或 c 之外的任何字符”。

pa = r\'\*(.+)\*\'

re.sub(pa,r\'\l\',s)

此时正则表达式会匹配尽可能多的 * *之间所有的字符例如*dddd* 将变为dddd *dd**ss*将变为dd**ss

pa = r\'\*(.+?)\*\'

此时正则表达式会匹配尽可能少的 * *之间所有的字符例如*dddd* 将变为dddd *dd**ss*将变为ddss