1.正则表达式简介

1.1 概念

正则表达式是对字符串操作的⼀种逻辑公式,就是⽤事先定义好的⼀些特定字 符、及这些特定字符的组合,组成⼀个“规则字符串”,这个“规则字符串”⽤来 表达对字符串的⼀种过滤逻辑

1.2 正则表达式的应用场景

  • 表单验证(例如 : ⼿机号、邮箱、身份证…)
  • 爬虫

2. 正则表达式对python的支持

2.1 普通字符

字⺟、数字、汉字、下划线、以及没有特殊定义的符号,都是"普通字符"。正则表达式中的普通字符,在匹配的时候只匹配与⾃身相同的⼀个字符。 例如:表达式c,在匹配字符串abcde时,匹配结果是:成功;匹配到的内容 是c;匹配到的位置开始于2,结束于3。(注:下标从0开始还是从1开始,因当前编程语⾔的不同⽽可能不同。

match()函数

  • match(pattern, string, flags=0) 第⼀个参数是正则表达式,如果匹配成功,则返回⼀个match对象,否则返 回⼀个None
  • 第⼆个参数表示要匹配的字符串
  • 第三个参数是标致位⽤于控制正则表达式的匹配⽅式 如: 是否区分⼤⼩写,多⾏匹配等等

2.2 元字符

正则表达式中使⽤了很多元字符,⽤来表示⼀些特殊的含义或功能
Python爬虫-正则表达式
⼀些⽆法书写或者具有特殊功能的字符,采⽤在前⾯加斜杠""进⾏转义的⽅法。
例如下表所示
Python爬虫-正则表达式
尚未列出的还有问号?、星号*和括号等其他的符号。所有正则表达式中具有特 殊含义的字符在匹配⾃身的时候,都要使⽤斜杠进⾏转义。这些转义字符的匹 配⽤法与普通字符类似,也是匹配与之相同的⼀个字符

相关文章: