【发布时间】:2013-05-10 01:14:24
【问题描述】:
我正在开发一些实用程序,它必须遍历一组 HTML 文件并对其进行操作。
JSoup 在解析和处理完整的文件方面做得很好(即它们有<html> ... </html> 标签)。
但是对于部分页面,即包含类似标记的页面,
<div id="leftnav">...</div>
它可以正确解析,但是当调用doc.toString() 或doc.outerHtml() 时,它会返回完整的HTML(它将部分HTML 内容包装在<html> <body> ... </body> </html> 标签中)
这对我来说是个问题,请告诉我 JSoup 中是否有这样的 API 不能以这种方式清理/清理 HTML 内容?
谢谢。
【问题讨论】: