【发布时间】:2011-11-02 22:45:47
【问题描述】:
我正在编写一个程序,其中第一步获取URL 地址并打开页面。然后将内容放入xml.dom.minidom解析器:
from xml.dom.minidom import parse
page = urllib2.urlopen(page_url)
parser = parse(page)
问题是很多页面的标签和特殊字符不匹配,因此解析方法会引发错误。如果有任何<br> 而不是<br />,也会引发错误...
我试过这样:
from xml.dom.minidom import parseString
page = urllib2.urlopen(page_url)
data = ""
for line in page.readlines():
data += str(line.replace("<br>", "<br />").replace(OTHER).replace...)
parser = parse(data)
但是,这不是一个好的解决方案。
那么,有没有对html代码中的标签不匹配和其他错误不那么敏感的库?
【问题讨论】:
标签: python xml html-parsing