【发布时间】:2014-07-24 23:35:09
【问题描述】:
所以我有这个 html 片段:
<p class="tbtx">
MWF
<br></br>
TH
</p>
这似乎完全被破坏了。我需要提取数据,即 ['MWF', 'TH']。
我能想到的唯一解决方案是替换html中的所有换行符和空格,然后在
处拆分并重建html结构,然后提取.text,但这有点荒谬。
对此有任何适当的解决方案吗?
【问题讨论】:
标签: python html web-scraping html-parsing beautifulsoup