安装beautiful soup模块
Windows:
pip install beautifulsoup4
Linux:
apt-get install python-bs4
BS4解析器比较
BS官方推荐使用lxml作为解析器,因为其速度快,也比较稳定。那么lxml解析器是怎么安装的呢?
Windows下安装lxml方法:
1、pip安装
pip install lxml
安装出错,原因是需要Visual c++,在windows下通过pip安装lmxl总会出现问题,如果你非要使用pip去安装的话,就把依赖一一解决了再pip.
2、手工安装
1、先在http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml下载符合自己系统版本的lmxl,如lxml‑3.6.4‑cp27‑cp27m‑win_amd64.whl
2、安装wheel模块,pip install wheel
3、安装lxml模块,pip install lxml‑3.6.4‑cp27‑cp27m‑win_amd64.whl
Linux下安装lxml方法:
apt-get install python-lxml
BS4解析器的使用
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>武汉旅游景点</title> </head> <body> <div id="content"> <div class="title"> <h3>武汉景点</h3> </div> <ul class="table"> <li>景点<a>门票价格</a></li> </ul> <ul class="content"> <li nu="1">东湖<a class="price">60</a></li> <li nu="2">磨山<a class="price">60</a></li> <li nu="3">欢乐谷<a class="price">108</a></li> <li nu="4">海昌极地海洋世界<a class="price">150</a></li> <li nu="5" src="http://mm.howkuai.com/wp-content/uploads/2017a/03/06/limg.jpg">玛雅水上乐园<a class="price">150</a></li> </ul> </div> </body> </html>
#!/usr/bin/env python # _*_ coding:utf-8 _*_ from bs4 import BeautifulSoup soup = BeautifulSoup(open("scenery.html"),"lxml") print soup.prettify()