使用BS4解析XML文件用法
安装:pip3 install lxml Beautifulsoup4 python-jenkins
1. html.parser

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html.parser,这个是bs4自带的解析器
2.

soup = BeautifulSoup(html, "xml") 

soup = BeautifulSoup(html, "lxml")

查找所有符合条件的标签

a)使用tag查找

soup.find_all('b')
b)正则表达式查找
soup.find_all(re.compile("^b"))

c)按列表中提供的tab查找
soup.find_all(["a", "b"])

d)实例
解析html将dt中class和ul中text找到放人字典中
b.html内容:
bs4解析xml文件,制作xml文件
<div class="MuneDown"> 
      <dl> 
       <dt class="menuListBox"> 
        <ul class="a"> xxx</ul> 
       </dt> 
       <dd class="adMuneBox validateArea" _bamboo_rep_transid="150166001-1" _bamboo_rep_menuid="" modulecode="module_nav_myunicom" _bamboo_rep_productlink="" validatetype="module_logo_area_2" rowrecordid="b6303d42ec84468badfd05cb88ef20d2"></dd> 
      </dl> 
     </div> 
</div>
View Code

相关文章: