gihyuqinqin

正则表达式总结+中文匹配

正则表达式在写爬虫,预处理数据时非常好用,但也很难记住,以下进行简单整理。

\d:数字

\w:字母、数字、下划线

\s:空格

.:除换行符外任意一个字符

\b:匹配单词边界

(改成大写,意义相反)

\n:换行

?:0或1个字符

+:至少一个字符

*:任意数量字符

{n}:n个字符

{n,m}:n到m个字符

 

^:开头

$:结束

A|B:匹配A或B

():分组,以后可使用group

 

[\u4e00-\u9fa5]:汉字

[0-9a-zA-Z\_]:匹配一个数字、字母或者下划线

 

"*?"   重复任意次,但尽可能少重复 

"+?"  重复1次或更多次,但尽可能少重复

"??"  重复0次或1次,但尽可能少重复

"{n,m}?"  重复n到m次,但尽可能少重复

"{n,}?"    重复n次以上,但尽可能少重复

posted on 2017-12-28 17:54  qinhyu  阅读(614)  评论(0编辑  收藏  举报
 

分类:

技术点:

相关文章:

  • 2021-11-17
  • 2021-05-27
  • 2021-06-01
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-24
猜你喜欢
  • 2022-12-23
  • 2021-11-17
  • 2021-11-17
  • 2021-11-17
相关资源
相似解决方案