官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
注意:|:或 ab|abc优先匹配前面的正则表达式ab,匹配上就不再用后面的abc,可以通过调换顺序修改优先级(abc|ab 一定要将长的放在前面)
https://www.cnblogs.com/Dominic-Ji/articles/11109067.html#_label10
注意 :1.字符组[...]:一个字符串里面的表达式都是或的关系;
2.^与$符连用 会精准限制匹配的内容, 两者中间写什么 匹配的字符串就必须是什么,多一个也不想少一个也不行
注意: 1.量词需要写在匹配符号的后面,并且只约束紧挨着它的那个正则表达式。
2.正则在匹配的时候默认都是贪婪匹配(尽量匹配多的),你可以通过在量词后面加上一个?就可以将贪婪匹配变成非贪婪匹配(惰性匹配,尽可能少的匹配)
事例:

分组:当多个正则符号需要重复多次的时候或者当做一个整体进行其他操作,那么可以分组的形式, 分组在正则的语法中就是()
注意:在python中使用re模块时分组有别的意义,下面会介绍
转义符
在正则表达式中,有很多有特殊意义的是元字符,比如\n和\s等,如果要在正则中匹配正常的"\n"而不是"换行符"就需要对""进行转义,变成'\'。
在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。
所以如果匹配一次"\n",字符串中要写成'\\n'
所以如果匹配一次"\\n",字符串中要写成'\\\\n'
简便操作,利用r可以让整个字符串都不再转义(了解:r其实就是real的意思,真实不转义)
import re # re.I不区分大小写的匹配 print(re.findall(r'a', 'abc123嘿嘿abcABC', flags=re.I)) # ['a', 'a', 'A'] # a|b a或b单个字符 print(re.findall(r'a|b', 'abc123嘿嘿abcABC', flags=re.I)) # ['a', 'b', 'a', 'b', 'A', 'B'] # [a,b] a或,或b单个字符 print(re.findall(r'[a,b]', 'abc,123嘿嘿abcABC', flags=re.I)) # ['a', 'b', ',', 'a', 'b', 'A', 'B'] # [^ab]非a及非b的所有单个字符 print(re.findall(r'[^ab]', 'abc,123嘿嘿abcABC')) # ['c', ',', '1', '2', '3', '嘿', '嘿', 'c', 'A', 'B', 'C'] # [a-z]所有单个小写字母 [A-Z]所有单个大写字母 [0-9]所有单个数字 print(re.findall(r'[a-z]', 'abc,123嘿嘿abcABC')) # ['a', 'b', 'c', 'a', 'b', 'c'] print(re.findall(r'[0-9]', 'abc,123嘿嘿abcABC')) # ['1', '2', '3'] # 所有小写大写数字单个字符 print(re.findall(r'[a-z]|[A-Z]|[0-9]', 'abc,123嘿嘿abcABC')) # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C'] print(re.findall(r'[A-Za-z0-9]', 'abc,123嘿嘿[abcABC')) # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C'] # .会匹配除\n以为的所有单个字符 print(re.findall(r'.', '*\_+=\n \r\t')) # ['*', '\\', '_', '+', '=', ' ', '\r', '\t'] # re.S会让.能匹配所有单个字符 print(re.findall(r'.', '*\_+=\n \r\t', flags=re.S)) # ['*', '\\', '_', '+', '=', '\n', ' ', '\r', '\t'] # \d单个数字 == [0-9] print(re.findall(r'\d', 'abc,123嘿嘿[abcABC')) # ['1', '2', '3'] # \w == [A-Za-z0-9_] 将常见的汉字就理解为单个字母 print(re.findall(r'\w', 'abc,123嘿[_')) # ['a', 'b', 'c', '1', '2', '3', '嘿', '_'] # \s == [\f\n\r\t\v ] 单个空:空格、制表符、换页符等 print(re.findall(r'\s', '\f\n\r\t\v ')) # ['\x0c', '\n', '\r', '\t', '\x0b', ' '] # \D就是\d的对立面:非数字的所有单个字符 \W就是\w的对立面 \S就是\s的对立面 print(re.findall(r'\D', 'abc,123嘿[_')) # ['a', 'b', 'c', ',', '嘿', '[', '_'] # 单个汉字 [\u4e00-\u9fa5] print(re.findall(r'[\u4e00-\u9fa5]', 'abc,123嘿[_')) # ['嘿'] # 建议使用 [0-9] [A-Za-z0-9_] [\f\n\r\t\v ] [^0-9] [\u4e00-\u9fa5] # 不建议使用 \d \w \s \D \w