【发布时间】:2012-04-30 12:37:36
【问题描述】:
我正在使用 html5lib 验证来自用户的自定义 HTML。问题是html5lib添加了html、head和body标签,我不需要。
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree"))
f = open('/home/user/ex.html')
doc = parser.parse(f)
doc.toxml()
'<html><head/><body><div>\n <a href="http://speedhunters.com">speedhunters.com\n</a></div><a href="http://speedhunters.com">\n</a></body></html>'
这是经过验证的,可以清理,但是如何删除或阻止将这些标签添加到树中?
我的意思是排除 replace 使用。
【问题讨论】:
-
所以,我想要一只猫,但我不需要它有腿......
-
这是页面的一部分,用户可以自定义,所以我只需要一条好猫的尾巴。
-
很公平,这是一个合理的用例。只是检查你没有试图产生一些可怕的错误输出。
-
@Lattyware,你觉得如何解决这个问题?
标签: python dom html-parsing html5lib