【推荐】oc解析HTML数据的类库（爬取网页数据）

　　TFhpple是一个用于解析html数据的第三方库，本人感觉功能还算可以，只不过在使用前必须配置项目。

　　配置

1.导入libxml2.tbd

2.设置编译路径

【推荐】oc解析HTML数据的类库（爬取网页数据）

　　使用

这里使用一个例子来说明

http://so.gushiwen.org/guwen/book_2.aspx

1.创建TFHpple对象，data为网站返回的数据

TFHpple *htmlParser = [[TFHpple alloc] initWithHTMLData:data];

2.使用searchWithXPathQuery方法得到有用数据，XPATH知识具体百度

NSArray *temp1 = [htmlParser searchWithXPathQuery:@"//div[@class='shileft']/div[@class='bookcont']"]

这样我们获取了论语的数据

3。获取并分析元素

TFHppleElement *element = [elements objectAtIndex:i];

TFHppleElement对象包含许多属性，下面简单介绍一下各属性

1。

@property (nonatomic, copy, readonly) NSString *raw

raw是包含html标记的网页数据

<div class="bookcont">&#13;
        <ul>&#13;
         &#13;
              <span><a href="/guwen/bookv_19.aspx">学而篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_20.aspx">为政篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_21.aspx">八佾篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_22.aspx">里仁篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_23.aspx">公冶长篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_24.aspx">雍也篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_25.aspx">述而篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_26.aspx">泰伯篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_27.aspx">子罕篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_28.aspx">乡党篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_29.aspx">先进篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_30.aspx">颜渊篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_31.aspx">子路篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_32.aspx">宪问篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_33.aspx">卫灵公篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_34.aspx">季氏篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_35.aspx">阳货篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_36.aspx">微子篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_37.aspx">子张篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_38.aspx">尧曰篇</a></span>&#13;
              &#13;
        </ul>&#13;
        </div>

raw数据