\p{InCombiningDiacriticalMarks} 是一个 Unicode 块属性。在 JDK7 中,您将能够使用两部分表示法 \p{Block=CombiningDiacriticalMarks} 来编写它,这对读者来说可能更清楚。它记录在here in UAX#44: “The Unicode Character Database”。
这意味着代码点位于特定范围内,即一个块,已分配给该名称的事物使用。这是一种不好的方法,因为不能保证该范围内的代码点是或不是任何特定的东西,也不能保证该块之外的代码点本质上不是相同的字符。
例如,\p{Latin_1_Supplement} 块中有拉丁字母,如 é、U+00E9。但是,那里也有不是拉丁字母的东西。当然,到处都是拉丁字母。
方块几乎从来都不是你想要的。
在这种情况下,我怀疑您可能想要使用属性\p{Mn},也就是\p{Nonspacing_Mark}。 Combining_Diacriticals 块中的所有代码点都属于这种类型。还有(从 Unicode 6.0.0 开始)1087 个 Nonspacing_Marks 在该块中是 not。
这与检查\p{Bidi_Class=Nonspacing_Mark} 几乎相同,但不完全一样,因为该组还包括封闭标记\p{Me}。如果你想要两者,你可以说[\p{Mn}\p{Me}],如果你使用的是默认的Java regex引擎,因为它只允许访问General_Category属性。
您必须像 Google 那样使用 JNI 访问 ICU C++ 正则表达式库才能访问 \p{BC=NSM} 之类的内容,因为目前只有 ICU 和 Perl 可以访问所有 Unicode 属性。普通的 Java 正则表达式库只支持几个标准的 Unicode 属性。尽管在 JDK7 中 将 支持 Unicode Script 属性,但它几乎无限优于 Block 属性。因此,您可以在 JDK7 中编写 \p{Script=Latin} 或 \p{SC=Latin},或快捷方式 \p{Latin},以获取拉丁脚本中的任何字符。这导致非常常用[\p{Latin}\p{Common}\p{Inherited}]。
请注意,这不会从所有字符中删除您可能认为的“重音”标记!有很多它不会这样做。例如,您不能通过这种方式将 Đ 转换为 D 或 ø 转换为 o。为此,您需要将代码点减少到与 Unicode 排序表中相同的主要排序强度匹配的代码点。
\p{Mn} 失败的另一个地方当然是包含\p{Me} 之类的标记,显然,但也有\p{Diacritic} 字符不是标记。遗憾的是,您需要为此提供完整的属性支持,这意味着 JNI 对于 ICU 或 Perl。恐怕 Java 在 Unicode 支持方面存在很多问题。
哦,等等,我看到你是葡萄牙人。如果您只处理葡萄牙语文本,那么您应该没有任何问题。
但是,我敢打赌,您并不是真的想删除重音,而是希望能够“不区分重音”地匹配事物,对吧?如果是这样,那么您可以使用ICU4J (ICU for Java) collator class 这样做。如果您以主要强度进行比较,则重音符号将不计算在内。我一直这样做是因为我经常处理西班牙语文本。如果您需要,我有一个示例,说明如何为坐在附近的西班牙人执行此操作。