【问题标题】:Java 6 RegEx to match all characters NOT in Unicode's Letters and Marks categoriesJava 6 RegEx 匹配所有不在 Unicode 字母和标记类别中的字符
【发布时间】:2012-06-02 11:47:40
【问题描述】:

我需要从字符串中删除所有非字母和标记(Unicode 类别)字符。目前我正在拆分并随后加入这样的字符串:

text.split("[\\p{P} \\t\\n\\r]")

然而,我的正则表达式...严重不足。请帮忙。

编辑 我认为这会奏效:

text.split("[\\P{M}\\P{L}]")

【问题讨论】:

标签: java regex unicode


【解决方案1】:

试试这个:

text = text.replaceAll("[^\\p{L}\\p{M}]", "");

http://www.regular-expressions.info/unicode.html中查看更多信息

【讨论】:

  • 我改变了我的答案。虽然显然已经找到了解决方案。
  • 与我不同,你的结束语是正确的 :-) 我认为这让你有资格获得一些观点。
猜你喜欢
  • 2011-07-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-01-21
  • 1970-01-01
  • 1970-01-01
  • 2011-08-25
  • 1970-01-01
相关资源
最近更新 更多