【发布时间】:2019-06-18 13:44:22
【问题描述】:
enter code here我的 html 编码有问题。
我有一个带有 html 编码的字符串,如下所示:
Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.
我想将此字符串转换为 Unicode。 它的输出(实际值)应该是
Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.
我试图找到this sugest 的解决方案,但它只能帮助所有字符格式以&# 开头的字符串。以&xxxx开头的字符,通过这个page我得到它的编码是html编码,但我的输入字符串是转换HTML实体(命名)和HTML实体(十进制)的组合。
谁能给我一个建议? 如果你能在没有任何额外的java库的情况下解决它是最好的。
提前致谢!
[UPDATE] 我通过使用Apache library 解决了我的问题:
String encodeString = "Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.";
String unEncodeString = StringEscapeUtils.unescapeHtml4(encodeString);
System.out.println("OUTPUT : " + unEncodeString);
=====> OUTPUT : Ðột nhiên, ở gốc Tây Bắc văng vẳng có tiếng vó ngựa dồn dập.
【问题讨论】:
-
谢谢@AnubianNoob,我用你的建议解决了我的问题,但另外我想只用Java的标准库来解决它。因为在stackoverflow.com/questions/20799512/… 中提出建议,我可以转换前缀为“$#”的字符串。你能帮忙吗?非常感谢!