Java 6 RegEx 匹配所有不在 Unicode 字母和标记类别中的字符答案

【问题标题】：Java 6 RegEx to match all characters NOT in Unicode's Letters and Marks categoriesJava 6 RegEx 匹配所有不在 Unicode 字母和标记类别中的字符
【发布时间】：2012-06-02 11:47:40
【问题描述】：

我需要从字符串中删除所有非字母和标记（Unicode 类别）字符。目前我正在拆分并随后加入这样的字符串：

text.split("[\\p{P} \\t\\n\\r]")

然而，我的正则表达式...严重不足。请帮忙。

编辑我认为这会奏效：

text.split("[\\P{M}\\P{L}]")

【问题讨论】：

我不是 PCRE 中的 Java 用户 \X 应该匹配 all unicode characters。

标签： java regex unicode

【解决方案1】：

试试这个：

text = text.replaceAll("[^\\p{L}\\p{M}]", "");

在http://www.regular-expressions.info/unicode.html中查看更多信息

【讨论】：

我改变了我的答案。虽然显然已经找到了解决方案。
与我不同，你的结束语是正确的 :-) 我认为这让你有资格获得一些观点。