正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下。

 1.纯正则:

先看一下图火车头使用正则匹配模式采集数据

在标签中用正则表达式采内容的格式是这样:

开始代码(?<content>正则表达式)结束代码

其中在开始代码和结束代码中如有需要转义的字符就要用\转义。

比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写

火车头使用正则匹配模式采集数据

 

然后就可以获得我们需要的版块名称了。

2.参数正则

这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。输入框两边都不得为空,后边的组合结果参数几是按匹配内容的顺序来写的,我们还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。

火车头使用正则匹配模式采集数据

测试一下,是可以获得我们需要的结果了。^_^  。

正则基本就这样,主要是写表达式的问题。如果您对这有兴趣,可以下载相关一些资料研究一下。

相关文章:

  • 2022-03-03
  • 2022-02-09
  • 2022-12-23
  • 2021-04-09
  • 2022-02-08
  • 2022-12-23
  • 2022-12-23
  • 2021-10-13
猜你喜欢
  • 2021-07-09
  • 2021-07-06
  • 2022-02-08
  • 2021-07-25
  • 2022-01-17
  • 2021-05-31
  • 2022-02-09
相关资源
相似解决方案