使用BS4解析XML文件用法
安装:pip3 install lxml Beautifulsoup4 python-jenkins
1. html.parser
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html.parser,这个是bs4自带的解析器
2.
soup = BeautifulSoup(html, "xml")
soup = BeautifulSoup(html, "lxml")
查找所有符合条件的标签
a)使用tag查找
soup.find_all('b')
b)正则表达式查找
soup.find_all(re.compile("^b"))
c)按列表中提供的tab查找
soup.find_all(["a", "b"])
d)实例
解析html将dt中class和ul中text找到放人字典中
b.html内容:
<div class="MuneDown"> <dl> <dt class="menuListBox"> <ul class="a"> xxx</ul> </dt> <dd class="adMuneBox validateArea" _bamboo_rep_transid="150166001-1" _bamboo_rep_menuid="" modulecode="module_nav_myunicom" _bamboo_rep_productlink="" validatetype="module_logo_area_2" rowrecordid="b6303d42ec84468badfd05cb88ef20d2"></dd> </dl> </div> </div>