【问题标题】:Robustly Parsing HTML in Python [duplicate]在 Python 中稳健地解析 HTML [重复]
【发布时间】:2013-10-30 20:00:45
【问题描述】:

如果这个问题已经被问了十亿次,请原谅我——在 Python 中解析 HTML 的可用选项是什么,特别是我正在处理一些有很多错误的遗留站点。有没有真正容错的解析器?

【问题讨论】:

标签: python html-parsing


【解决方案1】:

根据我的经验,在许多 python xml/html 库中,Beautiful Soup 非常擅长处理损坏的 HTML。

原始:

<i>This <span title="a">is<br> some <html>invalid</htl %> HTML. 
<sarcasm>It's so great!</sarcasm>

用 BeautifulSoup 解析:

 <i>This 
  <span title="a">is
   <br /> some 
   <html>invalid HTML. 
    <sarcasm>It's so great!
    </sarcasm>
   </html>
  </span>
 </i>

【讨论】:

  • 太棒了,这看起来可以解决问题。
猜你喜欢
  • 2016-03-23
  • 1970-01-01
  • 2011-07-04
  • 1970-01-01
  • 2012-10-01
  • 2018-05-18
  • 2022-11-02
  • 2022-10-31
  • 2012-09-27
相关资源
最近更新 更多