爬虫采集通用正则表达式

提取HTML <a>标签 href属性：(?<=href=("|'))[^("|')]*?(?=("|')) 说明：在 herf=("或') 之后，0或多个非("或') 字符但尽可能少，在 ("或') 之前。

提取HTML <a>标签的innerHTML2:(?<=(<a.*?>)).*?(?=</a>) 在java中改为(?<=(<a.{0,500}?>)).*?(?=</a>)

提取HTML <a>标签的innerHTML:(?<=<a[^>]*?>)[^<]*?(?=</a>)
在JDK中报错，用{0,200}代替*，改用：(?<=<a[^>]{0,200}?>)[^<]*?(?=</a>)
原因：http://m.blog.csdn.net/LinBilin_/article/details/53393585

提取HTML <title>标签的innerHTML:(?<=<title>).*?(?=</title>) 某某之后，非换行，尽可能少，某某之前

也可以用(?<=<title>)[^<]*?(?=</title>)

爬虫采集通用正则表达式

2021-07-15
2021-07-08
2021-09-23
2021-10-04
2021-08-04
2021-05-19
2021-10-21
2021-12-06