【发布时间】:2012-12-19 17:04:46
【问题描述】:
>>> s = '<div> < 20 </div>'
>>> import lxml.html
>>> tree = lxml.html.fromstring(s)
>>> lxml.etree.tostring(tree)
'<div> </div>'
有人知道解决方法吗?
【问题讨论】:
-
这是破html,可惜lxml不能优雅处理。这种类型的 html 在野外很常见。
标签: python html-parsing lxml