python爬虫之正则表达式

字符串是我们在编程的时候很常用的一种数据类型，检查会在字符串里面查找一些内容，对于比较简单的查找，字符串里面就有一些内置的方法可以处理，对于比较复杂的字符串查找，或者是有一些内容经常变化的字符串里面查找，那么字符串内置的查找方法已经不好使了，满足不了我们的要求，这个时候就得用正则表达式了，正则表达式就是用来匹配一些比较复杂的字符串。

关于正则表达式的相关知识，大家可以阅读一篇非常有名的博客叫《正则表达式30分钟入门教程》，读完这篇文章后你就可以看懂下面的表格，这是我们对正则表达式中的一些基本符号进行的扼要总结。

正则表达式在线练习工具：https://tool.oschina.net/regex

符号	解释	示例	说明
元字符
.	匹配任意字符	b.t	可以匹配bat / but / b#t / b1t等
\w	匹配字母/数字/下划线	b\wt	可以匹配bat / b1t / b_t等但不能匹配b#t
\s	匹配空白字符（包括\r、\n、\t等）	love\syou	可以匹配love you
\d	匹配数字	\d\d	可以匹配01 / 23 / 99等
\b	匹配单词的边界	\bThe\b
^	匹配字符串的开始	^The	可以匹配The开头的字符串
$	匹配字符串的结束	.exe$	可以匹配.exe结尾的字符串
\W	匹配非字母/数字/下划线	b\Wt	可以匹配b#t / b@t等但不能匹配but / b1t / b_t等
\S	匹配非空白字符	love\Syou	可以匹配love#you等但不能匹配love you
\D	匹配非数字	\d\D	可以匹配9a / 3# / 0F等
\B	匹配非单词边界	\Bio\B
[]	匹配来自字符集的任意单一字符	[aeiou]	可以匹配任一元音字母字符
[^]	匹配不在字符集中的任意单一字符	[^aeiou]	可以匹配任一非元音字母字符
限定符
*	匹配0次或多次	\w*
+	匹配1次或多次	\w+
?	匹配0次或1次	\w?
{N}	匹配N次	\w{3}
{M,}	匹配至少M次	\w{3,}
{M,N}	匹配至少M次至多N次	\w{3,6}
\|	分支	foo\|bar	可以匹配foo或者bar
(?#)	注释
(exp)	匹配exp并捕获到自动命名的组中
(?<name>exp)	匹配exp并捕获到名为name的组中
(?:exp)	匹配exp但是不捕获匹配的文本
(?=exp)	匹配exp前面的位置	\b\w+(?=ing)	可以匹配I\'m dancing中的danc
(?<=exp)	匹配exp后面的位置	(?<=\bdanc)\w+\b	可以匹配I love dancing and reading中的第一个ing
(?!exp)	匹配后面不是exp的位置
(?<!exp)	匹配前面不是exp的位置
*?	重复任意次，但尽可能少重复	a.b a.?b	将正则表达式应用于aabab，前者会匹配整个字符串aabab，后者会匹配aab和ab两个字符串
+?	重复1次或多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{M,N}?	重复M到N次，但尽可能少重复
{M,}?	重复M次以上，但尽可能少重复

**说明：**如果需要匹配的字符是正则表达式中的特殊字符，那么可以使用\进行转义处理，例如想匹配小数点可以写成\.就可以了，因为直接写.会匹配任意字符；同理，想匹配圆括号必须写成 $和$

在python中，如果使用正则表达式的话，需要导入re模块，re模块是一个内置模块，直接import就可以使用，下面是re模块中的核心函数。

函数	说明
compile(pattern, flags=0)	编译正则表达式返回正则表达式对象
match(pattern, string, flags=0)	用正则表达式匹配字符串成功返回匹配对象否则返回None
search(pattern, string, flags=0)	搜索字符串中第一次出现正则表达式的模式成功返回匹配对象否则返回None
split(pattern, string, maxsplit=0, flags=0)	用正则表达式指定的模式分隔符拆分字符串返回列表
sub(pattern, repl, string, count=0, flags=0)	用指定的字符串替换原字符串中与正则表达式匹配的模式可以用count指定替换的次数
fullmatch(pattern, string, flags=0)	match函数的完全匹配（从字符串开头到结尾）版本
findall(pattern, string, flags=0)	查找字符串所有与正则表达式匹配的模式返回字符串的列表
finditer(pattern, string, flags=0)	查找字符串所有与正则表达式匹配的模式返回一个迭代器
purge()	清除隐式编译的正则表达式的缓存
re.I / re.IGNORECASE	忽略大小写匹配标记
re.M / re.MULTILINE	多行匹配标记

**说明：**上面提到的re模块中的这些函数，实际开发中也可以用正则表达式对象的方法替代对这些函数的使用，如果一个正则表达式需要重复的使用，那么先通过compile函数编译正则表达式并创建出正则表达式对象无疑是更为明智的选择。

匹配字符串的几个方法

import re
s=\'chenshifeng is a good boy\'
print(re.match(\'chen\',s))
#match方法接收3个参数，第一个是匹配的规则，也就是正则表达式，第二个是要查找的字符串，
#第三个参数不是必填的，用于控制正则表达式的匹配方式，看下面正则表达式的匹配模式。是从字符串的第一个单词中匹配字符串，如果匹配到返回一个对象，如果匹配不到，则返回None
#>>> <_sre.SRE_Match object; span=(0, 4), match=\'chen\'>
print(re.search(\'feng\',s))
#search方法的参数和match一样，和match方法不一样的是，match是从字符串里面的第一个单词里面找，而search方法则是从字符串的整个内容里面找，如果找到了就返回第一个，找不到就返回None
#>>> <_sre.SRE_Match object; span=(7, 11), match=\'feng\'>
print(re.findall(\'feng\',s))
#findall方法的参数上面的match、search一样，和他们不一样的是，findall会返回所有一个list，把所有匹配到的字符串，放到这个list里面，如果找不到的话，就返回一个空的list
#>>> [\'feng\']
print(re.sub(\'chen\',\'Chen\',s))
#sub方法和字符串的replace方法一样，是用来替换字符串的，把匹配到的值替换成一个新的字符串，接收3个参数，第一个是正则表达式，第二个是要替换成什么，第三个就是要查找的字符串，会返回一个新的字符串，如果匹配不到的话，返回原来的字符串
#>>> Chenshifeng is a good boy
print(re.split(\'is\',s))
#split 方法和字符串的split方法一样，是用来分割字符的，按照匹配到的字符串进行分割，返回的是一个list，如果匹配不到的话，那返回的list中还是原来的字符串
#>>> [\'chenshifeng \', \' a good boy\']

常用正则表达式符号

1、数量词

import re

str1="87alalsdkj34878273\nalkjsldkjfalsdjalksd2klajlfkasjlkdf"

#"*" 匹配0次或者多次前面出现的正则表达式
print(re.findall("al*",str1))   #等价于al|a
#结果：[\'al\', \'al\', \'al\', \'al\', \'al\', \'a\', \'a\']

# “+”匹配前面出现的正则表达式一次或者多次
print(re.findall("al+",str1)) #等价于“al”
#结果[\'al\', \'al\', \'al\', \'al\', \'al\']，

# “？”匹配0次或者一次前面出现的正则表达式
print(re.findall("al?",str1))
#结果：[\'al\', \'al\', \'al\', \'al\', \'al\', \'a\', \'a\']

# {n}匹配前出现的正则表达式n次
print(re.findall("[0-9]{2}",str1))
#结果：[\'87\', \'34\', \'87\', \'82\', \'73\']

# {n,m}匹配前出现的正则表达式n到m次
print(re.findall("[0-9]{2,3}",str1))  #两者都满满足时，值去最大的匹配
#结果：[\'87\', \'348\', \'782\', \'73\']

2、一般字符串

\'.\'     默认匹配除\n之外的任意一个字符
print(re.findall(r\'b.\',\'besttest is good\'))
\'[....]\',字符集合，
>>> [\'be\']
>>> [\'st\', \'st\', \'s\', \'st\']
\'\\'   转译符，前面的* + ?这样的字符都有特殊含义了，如果你想就想找它的话，那就得转译了
意思就是说如果你想让特殊字符失去以前的含义，那么就得给它前面加上\
print(re.findall(r\'\?\',\'besttest is best????\'))
>>> [\'?\', \'?\', \'?\', \'?\']
\'|\'     匹配|左或|右的字符
print(re.findall(r\'best|is\',\'besttest is best\'))
>>> [\'best\', \'is\', \'best\']
\'[]\' 字符集合，某些字符的集合，匹配的时候是这个集合里面的任意一个就行
print(re.findall(r\'be[stacj]\',\'besttest is best bejson\'))
>>>[\'bes\', \'bes\', \'bej\']
在[]里面如果用^的话代表取反，也就是不包括的这些字符串的
print(re.findall(r\'be[^stac]\',\'besttest is best bejson\'))

3、边界匹配

\'^\'     匹配以什么字符开头,多行情况下匹配每一行的开头
print(re.findall(r\'^b\',\'besttest is good\'))
>>> [\'b\']
print(re.findall(r\'^b\',\'besttest is good\nbest\',re.M))#多行模式
>>> [\'b\',\'b\']
\'$\'     匹配以什么字符结尾,多行情况下匹配每一行的结尾
print(re.findall(r\'d$\',\'besttest is good\'))
>>> [\'d\']
print(re.findall(r\'d$\',\'besttest is good\nbest is good\',re.M<span style="line-height:1.5;">))#多行模式</span> >>>[\'d\',\'d\']
\'\A\' 仅以什么字符开头，和^不同的是它不能用多行模式
print(re.findall(r\'\Ab\',\'besttest is good\'))
>>> [\'b\']
\'\Z\' 仅以什么字符结尾，和$不同的是它不能用多行模式
print(re.findall(r\'d\Z\',\'besttest is good\'))
>>> [\'d\']

4、预定义字符集合

\'\d\'  匹配数字0-9
print(re.findall(r\'\d+\',\'sdf2342312sdfs\'))
>>> [\'2342312\']
\'\D\'    匹配非数字
print(re.findall(r\'\D\',\'sdf2342312sdfs\'))
>>>[\'sdf\', \'sdfs\']
\'\w\'    匹配[A-Za-z0-9],也就是所有的字母和数字
print(re.findall(r\'\w\',\'sdf234%^2312sdfs&\'))
>>>[\'sdf234\', \'2312sdfs\']
\'\W\' 匹配不是[A-Za-z0-9]，也就是不是字母和数字
print(re.findall(r\'\W\',\'sdf234%^2312sdfs&\'))
>>>[\'%\', \'^\', \'&\']
\'\s\' 匹配空白字符、\t、\n、\r,空格
print(re.findall(\'\s\',\'axss\n\tsdf\t\r\t\'))
>>> [\'\n\', \'\t\', \'\t\', \'\r\', \'\t\']
\'\S\'匹配空白字符,不是\t、\n、\r,空格
print(re.findall(\'\s\',\'axss\n\tsdf\t\r\t\'))
>>>[\'\n\', \'\t\', \'\t\', \'\r\', \'\t\']

5、分组匹配

\'(...)\' 分组匹配，把某些规则写成在一个组里，这样就可以直接对这个进行一些匹配了，举个例子的话，如果要匹配ip地址的话
ip地址是类似这样的192.168.5.1，每一位都是1位或者3位的数字然后后面有个点正常写的话,得这么写
print(re.findall(r\'\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}\',"192.168.1.3"))
>>> [\'192.168.1.3\']
这样写的话，有点麻烦了，通过上面的我们可以发现规律，除了第一个后面的全都是\'.\d{1,3}\'，写重复的代码就是低级的，这样的话就可以用分组了
就把\'.\d{1,3}\'当做一个整体，然后让他们出现3次就ok了，可以改成下面这样的
print(re.search(r\'\d{1,3}(.\d{1,3}){3}\',"192.168.1.3").group())这个是用search方法的，结果和上面的一样的
>>> 192.168.1.3
print(re.findall(r\'\d{1,3}(.\d{1,3}){3}\',"192.168.1.3"))咱们继续用findall方法，发现结果是下面的
>>> [\'.3\']
为啥会这样呢，用match方法和search方法都是正常的，findall方法这里有个坑，就是如果findall方法里面有分组的话，那结果就只是分组里面的内容
，如果想让结果正确的话就在分组最前面写上\'?:\'，一个问号和一个冒号就好了，启用“不捕捉模式”
print(re.findall(r\'\d{1,3}(?:.\d{1,3}){3}\',"192.168.1.3"))
这么写结果就对了

正则表达式匹配模式

正则匹配模式是用在match、search、findall里面的第三个参数，还有其他的模式，但是一般也用不到，就这两种能用到，别的就不记了

re.I: #忽略大小写
re.M: #多行模式，改变\'^\'和\'$\'的行为
re.findall(\'pattern\', \'string\',re.I)