【问题标题】:Java regex conversion [duplicate]Java正则表达式转换[重复]
【发布时间】:2012-07-09 04:20:16
【问题描述】:

可能重复:
Java: How to decode HTML character entities in Java like HttpUtility.HtmlDecode?

我有一些特殊字符以这种格式编码的字符串数据&#039

在这种情况下,编码是一个 ' 符号,一个单引号。

所以例如"the citizen&#039s home" 应该看起来像"the citizen's home" 但它不是。

不幸的是,这并没有被这样解释,我需要为这些东西解析我的所有字符串并转换它们

首先:那个格式叫什么,这将帮助我找到一种转换方法

第二:你知道修复我的字符串的方法吗?

【问题讨论】:

  • 这种格式称为:HTML Entity(十进制)。

标签: java regex string


【解决方案1】:

无需重新发明轮子:Apache Commons Lang 的StringEscapeUtils.unescapeHtml4(String) 就是您想要的。

取消转义包含实体的字符串转义为包含 与转义对应的实际 Unicode 字符。支持 HTML 4.0 实体。

例如,字符串"<Français>" 将变为 "<Français>"

如果某个实体无法识别,则将其单独放置,并逐字插入 到结果字符串中。例如">&zzzz;x" 将变为 ">&zzzz;x"

【讨论】:

    猜你喜欢
    • 2023-03-11
    • 2019-05-13
    • 2023-03-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-07-26
    相关资源
    最近更新 更多