安装beautiful soup模块

  Windows:

    pip install beautifulsoup4

  Linux:

    apt-get install python-bs4

  

BS4解析器比较

BeautifulSoup爬虫基础知识

 

BS官方推荐使用lxml作为解析器,因为其速度快,也比较稳定。那么lxml解析器是怎么安装的呢?

Windows下安装lxml方法:

  1、pip安装

    pip install lxml

    安装出错,原因是需要Visual c++,在windows下通过pip安装lmxl总会出现问题,如果你非要使用pip去安装的话,就把依赖一一解决了再pip.

  2、手工安装

    1、先在http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml下载符合自己系统版本的lmxl,如lxml‑3.6.4‑cp27‑cp27m‑win_amd64.whl

    2、安装wheel模块,pip install wheel

    3、安装lxml模块,pip install lxml‑3.6.4‑cp27‑cp27m‑win_amd64.whl

Linux下安装lxml方法:

  apt-get install python-lxml

 

BS4解析器的使用

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>武汉旅游景点</title>
</head>
<body>
    <div id="content">
        <div class="title">
            <h3>武汉景点</h3>
        </div>
        <ul class="table">
            <li>景点<a>门票价格</a></li>
        </ul>
        <ul class="content">
            <li nu="1">东湖<a class="price">60</a></li>
            <li nu="2">磨山<a class="price">60</a></li>
            <li nu="3">欢乐谷<a class="price">108</a></li>
            <li nu="4">海昌极地海洋世界<a class="price">150</a></li>
            <li nu="5" src="http://mm.howkuai.com/wp-content/uploads/2017a/03/06/limg.jpg">玛雅水上乐园<a class="price">150</a></li>
        </ul>
    </div>
</body>
</html>

 

#!/usr/bin/env python
# _*_ coding:utf-8 _*_

from bs4 import BeautifulSoup
soup = BeautifulSoup(open("scenery.html"),"lxml")
print soup.prettify()
简单的使用

相关文章: