【发布时间】:2016-03-18 11:39:13
【问题描述】:
我有一些 html 代码,其中有很多行要删除,看起来像这样
<span style="position:absolute; border: black 1px solid; left:94px; top:600px; width:6px; height:10px;"></span>
现在还有跨度标签,它们之间有文本,我想保留。
我想用python re.sub 函数来删除那些无用的span标签。我写了这个,但它不起作用
html_code_filtered = re.sub('<span*></span>', '', html_code)
我想我在正则表达式中遗漏了一些东西来正确匹配行?
【问题讨论】:
-
如果可能,请使用 beautifullsoup 解决此类问题,请参阅crummy.com/software/BeautifulSoup
-
当一个 span 标签包含例如一个 img 标签时会发生什么?
-
@CasimiretHippolyte 在这种情况下,它不会被删除,但我不必处理类似的事情,因为这不会发生在我正在处理的 html 文件中。