【发布时间】:2012-03-03 06:03:32
【问题描述】:
我正在尝试使用Jsoup 清理 HTML 文本并从中提取纯文本。 HTML 可能包含非英文字符。
例如 HTML 文本是:
String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";
现在如果我使用Jsoup#parse(String html):
String text = Jsoup.parse(html).text();
正在打印:
Á example link.
如果我使用Jsoup#clean(String bodyHtml, Whitelist whitelist) 清理文本:
String text = Jsoup.clean(html, Whitelist.none());
正在打印:
Á example link.
我的问题是,我怎样才能得到文字
Á example link.
使用Whitelist 和clean() 方法?我想使用Whitelist,因为我可能需要使用Whitelist#addTags(String... tags)。
任何信息都会对我很有帮助。
谢谢。
【问题讨论】: