这里我们获得标题,可以选开始"<title>"结束"</title>",然后过滤一下 “- 站长网”这字符,也可以开始“<title>"结束”- 站长网“来直接获得
标题。想获得关键字的话可以 开始 <meta name="keywords" content=" 结束 ">
下边讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码。
我们可以看到,文章前边是<div >这个代码,我们查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码
<center></center>,这个也是唯一的。这样,我们以这两个代码为开头和结尾就可以获得内容了。
规则下载
在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是i通配符的使用是在代码的中间,两边是不能使用的,那样一般是会出错的,如果可以是以这个开始 <til(*)> ,但不能这样,(*)title 或是 title(*) 。比如这个可以代替任何内容,有的采集时不容易获得最开始的标识,或者说是那样的代码很多,比如代码里 (*)<div > 等........注意前边的基本都是唯一的代码.
使用前后截取模式采集数据是最常用的方法,也是最简单的方法,使用好这个可以基本采集的都可以处理了。