一 正则表达式和re模块

1.什么是正则和re模块:

   1)正则表达式是一门独立的技术,任何语言均可使用。用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。

   2)python中通过re模块来使用正则。

官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

二 正则表达式应用场景

1.爬虫

2.数据分析

3.推荐书籍:《正则指引》

三 常用匹配模式

https://www.cnblogs.com/linhaifeng/articles/6384466.html#_label13

Python  正则表达式 python re模块

注意:|:或        ab|abc优先匹配前面的正则表达式ab,匹配上就不再用后面的abc,可以通过调换顺序修改优先级(abc|ab 一定要将长的放在前面

https://www.cnblogs.com/Dominic-Ji/articles/11109067.html#_label10

Python  正则表达式 python re模块

 注意 :1.字符组[...]:一个字符串里面的表达式都是或的关系;

          2.^与$符连用 会精准限制匹配的内容,  两者中间写什么 匹配的字符串就必须是什么,多一个也不想少一个也不行
       

Python  正则表达式 python re模块

Python  正则表达式 python re模块

 

注意: 1.量词需要写在匹配符号的后面,并且只约束紧挨着它的那个正则表达式。

         2.正则在匹配的时候默认都是贪婪匹配(尽量匹配多的),你可以通过在量词后面加上一个?就可以将贪婪匹配变成非贪婪匹配(惰性匹配,尽可能少的匹配)

事例:

Python  正则表达式 python re模块

Python  正则表达式 python re模块

Python  正则表达式 python re模块

Python  正则表达式 python re模块

分组:当多个正则符号需要重复多次的时候或者当做一个整体进行其他操作,那么可以分组的形式, 分组在正则的语法中就是()

注意:在python中使用re模块时分组有别的意义,下面会介绍

转义符

在正则表达式中,有很多有特殊意义的是元字符,比如\n和\s等,如果要在正则中匹配正常的"\n"而不是"换行符"就需要对""进行转义,变成'\'。

在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。

所以如果匹配一次"\n",字符串中要写成'\\n'

所以如果匹配一次"\\n",字符串中要写成'\\\\n'

简便操作,利用r可以让整个字符串都不再转义(了解:r其实就是real的意思,真实不转义)

Python  正则表达式 python re模块

 

四 python中 re模块使用

1.单个字符(findall)

import re
# re.I不区分大小写的匹配
print(re.findall(r'a', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'a', 'A']

# a|b a或b单个字符
print(re.findall(r'a|b', 'abc123嘿嘿abcABC', flags=re.I))  # ['a', 'b', 'a', 'b', 'A', 'B']

# [a,b] a或,或b单个字符
print(re.findall(r'[a,b]', 'abc,123嘿嘿abcABC', flags=re.I))  # ['a', 'b', ',', 'a', 'b', 'A', 'B']

# [^ab]非a及非b的所有单个字符
print(re.findall(r'[^ab]', 'abc,123嘿嘿abcABC'))  # ['c', ',', '1', '2', '3', '嘿', '嘿', 'c', 'A', 'B', 'C']

# [a-z]所有单个小写字母   [A-Z]所有单个大写字母   [0-9]所有单个数字
print(re.findall(r'[a-z]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', 'a', 'b', 'c']
print(re.findall(r'[0-9]', 'abc,123嘿嘿abcABC'))  # ['1', '2', '3']

# 所有小写大写数字单个字符
print(re.findall(r'[a-z]|[A-Z]|[0-9]', 'abc,123嘿嘿abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

print(re.findall(r'[A-Za-z0-9]', 'abc,123嘿嘿[abcABC'))  # ['a', 'b', 'c', '1', '2', '3', 'a', 'b', 'c', 'A', 'B', 'C']

# .会匹配除\n以为的所有单个字符
print(re.findall(r'.', '*\_+=\n \r\t'))  # ['*', '\\', '_', '+', '=', ' ', '\r', '\t']

# re.S会让.能匹配所有单个字符
print(re.findall(r'.', '*\_+=\n \r\t', flags=re.S))  # ['*', '\\', '_', '+', '=', '\n', ' ', '\r', '\t']

# \d单个数字 == [0-9]
print(re.findall(r'\d', 'abc,123嘿嘿[abcABC'))  # ['1', '2', '3']
# \w == [A-Za-z0-9_]  将常见的汉字就理解为单个字母

print(re.findall(r'\w', 'abc,123嘿[_'))  # ['a', 'b', 'c', '1', '2', '3', '嘿', '_']
# \s == [\f\n\r\t\v ] 单个空:空格、制表符、换页符等

print(re.findall(r'\s', '\f\n\r\t\v '))  # ['\x0c', '\n', '\r', '\t', '\x0b', ' ']

# \D就是\d的对立面:非数字的所有单个字符  \W就是\w的对立面  \S就是\s的对立面
print(re.findall(r'\D', 'abc,123嘿[_'))  # ['a', 'b', 'c', ',', '嘿', '[', '_']


# 单个汉字 [\u4e00-\u9fa5]
print(re.findall(r'[\u4e00-\u9fa5]', 'abc,123嘿[_'))  # ['嘿']

# 建议使用  [0-9]  [A-Za-z0-9_]  [\f\n\r\t\v ]  [^0-9]  [\u4e00-\u9fa5]
# 不建议使用 \d            \w            \s             \D            \w
View Code

相关文章:

  • 2021-12-19
  • 2021-07-30
  • 2021-11-05
  • 2021-09-04
  • 2022-01-12
  • 2021-10-21
  • 2022-12-23
猜你喜欢
  • 2021-12-18
  • 2021-12-26
  • 2021-05-14
  • 2021-08-13
  • 2021-12-09
  • 2022-01-02
  • 2021-08-23
相关资源
相似解决方案