【发布时间】:2015-12-19 08:46:25
【问题描述】:
我正在使用 Jsoup 从 HTML 页面中删除所有图像。 我通过 HTTP 响应接收页面 - 它还包含内容字符集。
问题是 Jsoup 未转义一些特殊字符。
例如,对于输入:
<html><head></head><body><p>isn’t</p></body></html>
运行后
String check = "<html><head></head><body><p>isn’t</p></body></html>";
Document doc = Jsoup.parse(check);
System.out.println(doc.outerHtml());
我明白了:
<html><head></head><body><p>isn’t</p></body></html><p></p>
我想避免以任何其他方式更改 html,除了删除图像。
通过使用命令:
doc.outputSettings().prettyPrint(false).charset("ASCII").escapeMode(EscapeMode.extended);
我确实得到了正确的输出,但我确信在某些情况下该字符集不会很好。我只想使用 HTTP 标头中指定的字符集,恐怕这会以我无法预测的方式更改我的文档。 有没有其他更干净的方法来删除图像而不会无意中更改任何其他内容?
谢谢!
【问题讨论】:
标签: html character-encoding escaping jsoup