lxml beautiful pyquery三种解析库

这两天看了一下python常用的三种解析库，写篇随笔，整理一下思路。太菜了，若有错误的地方，欢迎大家随时指正。。。。。。。(come on.......)

爬取网页数据一般会经过 获取信息->提取信息->保存信息 这三个步骤。而解析库的使用，则可以帮助我们快速的提取出我们需要的那被部分信息，免去了写复杂的正则表达式的麻烦。在使用解析库的时候，个人理解也会有三个步骤 建立文档树->搜索文档树->获取属性和文本。

建立文档树：就是把我们获取到的网页源码利用解析库进行解析，只有这样，后面才能使用这个解析库的方法。

搜索文档树：就是在已经建立的文档树里面，利用标签的属性，搜索出我们需要的那部分信息，比如一个包含一部分网页内容的div标签，一个ul标签等。

获取索性和文本：在上一步的基础上，进一步获取到具体某个标签的文本或属性，比如一个a标签的href属性，title属性，或它的文本。

先来介绍lxml，这个库用到了 Xpath 语法，不过在Google里可以直接copy某个元素的xpath路径，非常的方便。

首先，定义一个html的字符串，用它来模拟已经获取到的网页源码

html = '''
<div >
    <ul class="list">
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
     <ul class="list">
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''

View Code