【问题标题】:Regex to Filter string with unicode characters and emojis for java [closed]正则表达式过滤带有unicode字符和表情符号的java字符串[关闭]
【发布时间】:2020-06-03 04:36:39
【问题描述】:

我正在开发一个 Spring Boot 聊天应用程序。如何创建正则表达式来实现以下目标,

  • 删除特殊字符
  • 删除换行符等。
  • 接受 Unicode 字符
  • 接受表情符号

进一步, DB表CHARACTER SETutf8mb4COLLATEutf8mb4_bin

【问题讨论】:

  • 所有可以用 Java 处理的字符都是 Unicode 字符。
  • 我们希望您有一些努力的证据。显示你的正则表达式。

标签: java regex spring-boot unicode emoji


【解决方案1】:
  • 删除特殊字符

    s = s.replaceAll("[\\p{P}\\p{S}]", "")
    
  • 删除换行符等。

    s = s.replaceAll("[\\p{C}\\p{Zl}\\p{Zp}]", "")
    
  • 接受 Unicode 字符
    Java 已经这样做了。

  • 接受表情符号
    表情符号是 Unicode 字符,因此 Java 已经这样做了。

万能的:

s = s.replaceAll("[\\p{P}\\p{S}\\p{C}\\p{Zl}\\p{Zp}]", "")

有关 Unicode 类别列表和每个类别中的字符,请参阅Unicode Character Categories

使用上述正则表达式,将保留以下类别:L(字母)、M(标记)、N(数字)、Zs(分隔符、空格)。

【讨论】:

    猜你喜欢
    • 2015-03-30
    • 2011-02-19
    • 2012-10-13
    • 1970-01-01
    • 2020-06-07
    • 1970-01-01
    • 2017-01-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多