【发布时间】:2013-10-30 20:00:45
【问题描述】:
如果这个问题已经被问了十亿次,请原谅我——在 Python 中解析 HTML 的可用选项是什么,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?
【问题讨论】:
标签: python html-parsing
如果这个问题已经被问了十亿次,请原谅我——在 Python 中解析 HTML 的可用选项是什么,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?
【问题讨论】:
标签: python html-parsing
根据我的经验,在许多 python xml/html 库中,Beautiful Soup 非常擅长处理损坏的 HTML。
原始:
<i>This <span title="a">is<br> some <html>invalid</htl %> HTML.
<sarcasm>It's so great!</sarcasm>
用 BeautifulSoup 解析:
<i>This
<span title="a">is
<br /> some
<html>invalid HTML.
<sarcasm>It's so great!
</sarcasm>
</html>
</span>
</i>
【讨论】: