【发布时间】:2012-11-24 21:01:27
【问题描述】:
可能重复:
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?
我需要从 html 文件中提取段落(如 StackOverflow 中的 title)。
我可以使用Java中的正则表达式来提取我需要的字段,但我必须decode获得的字段。
示例
提取的字段:
Paging Lucene's search results (with **;** among **'** and **s**)
解码后的字段:
Paging Lucene's search results
java中是否有任何类可以让我转换这些html代码?
【问题讨论】:
-
您的 HTML 是否包含标签?
-
是,但提取的字段不包含标签
-
对于初学者来说,using regex to parse HTML 首先是完全错误的。只需使用 HTML parser 之类的 Jsoup。有点体面的会立即为您取消转义 HTML。