正则表达式：什么是 InCombiningDiacriticalMarks？答案

【问题标题】：Regex: what is InCombiningDiacriticalMarks?正则表达式：什么是 InCombiningDiacriticalMarks？
【发布时间】：2011-08-07 12:26:20
【问题描述】：

以下代码是众所周知的将重音字符转换为纯文本的代码：

Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

我用这个替换了我的“手工”方法，但我需要了解 replaceAll 的“正则表达式”部分

1) 什么是“InCombiningDiacriticalMarks”？
2）它的文档在哪里？（和类似的？）

谢谢。

【问题讨论】：

另见stackoverflow.com/a/29111105/32453 显然，unicode 中的“组合标记”不仅仅是变音符号，就像注释一样。

标签： java regex unicode

【解决方案1】：

\p{InCombiningDiacriticalMarks} 是一个 Unicode 块属性。在 JDK7 中，您将能够使用两部分表示法 \p{Block=CombiningDiacriticalMarks} 来编写它，这对读者来说可能更清楚。它记录在here in UAX#44: “The Unicode Character Database”。

这意味着代码点位于特定范围内，即一个块，已分配给该名称的事物使用。这是一种不好的方法，因为不能保证该范围内的代码点是或不是任何特定的东西，也不能保证该块之外的代码点本质上不是相同的字符。

例如，\p{Latin_1_Supplement} 块中有拉丁字母，如 é、U+00E9。但是，那里也有不是拉丁字母的东西。当然，到处都是拉丁字母。

方块几乎从来都不是你想要的。

在这种情况下，我怀疑您可能想要使用属性\p{Mn}，也就是\p{Nonspacing_Mark}。 Combining_Diacriticals 块中的所有代码点都属于这种类型。还有（从 Unicode 6.0.0 开始）1087 个 Nonspacing_Marks 在该块中是 not。

这与检查\p{Bidi_Class=Nonspacing_Mark} 几乎相同，但不完全一样，因为该组还包括封闭标记\p{Me}。如果你想要两者，你可以说[\p{Mn}\p{Me}]，如果你使用的是默认的Java regex引擎，因为它只允许访问General_Category属性。

您必须像 Google 那样使用 JNI 访问 ICU C++ 正则表达式库才能访问 \p{BC=NSM} 之类的内容，因为目前只有 ICU 和 Perl 可以访问所有 Unicode 属性。普通的 Java 正则表达式库只支持几个标准的 Unicode 属性。尽管在 JDK7 中将支持 Unicode Script 属性，但它几乎无限优于 Block 属性。因此，您可以在 JDK7 中编写 \p{Script=Latin} 或 \p{SC=Latin}，或快捷方式 \p{Latin}，以获取拉丁脚本中的任何字符。这导致非常常用[\p{Latin}\p{Common}\p{Inherited}]。

请注意，这不会从所有字符中删除您可能认为的“重音”标记！有很多它不会这样做。例如，您不能通过这种方式将 Đ 转换为 D 或 ø 转换为 o。为此，您需要将代码点减少到与 Unicode 排序表中相同的主要排序强度匹配的代码点。

\p{Mn} 失败的另一个地方当然是包含\p{Me} 之类的标记，显然，但也有\p{Diacritic} 字符不是标记。遗憾的是，您需要为此提供完整的属性支持，这意味着 JNI 对于 ICU 或 Perl。恐怕 Java 在 Unicode 支持方面存在很多问题。

哦，等等，我看到你是葡萄牙人。如果您只处理葡萄牙语文本，那么您应该没有任何问题。

但是，我敢打赌，您并不是真的想删除重音，而是希望能够“不区分重音”地匹配事物，对吧？如果是这样，那么您可以使用ICU4J (ICU for Java) collator class 这样做。如果您以主要强度进行比较，则重音符号将不计算在内。我一直这样做是因为我经常处理西班牙语文本。如果您需要，我有一个示例，说明如何为坐在附近的西班牙人执行此操作。

【讨论】：

所以，我必须假设整个网络（甚至在 SO 中）给出的方法不是“DeAccent”一词的推荐方法。我直接为葡萄牙语做了一个，但看到了这种奇怪的方法（就像你说的，它适用于我的目的，但我的最后一种方法确实如此！）。那么，是否有更好的“实施良好”的方法来涵盖大多数场景？一个例子会很好。感谢您的宝贵时间。
@Marcolopes：我一直保持数据完整，并使用 Unicode 排序算法进行主要强度比较。这样它只比较字母，但忽略大小写和重音标记。它还让那些应该是同一个字母的东西be是同一个字母，去除重音只是一种苍白且不能令人满意的近似。另外，如果您可以按照您想要但不需要的方式使用数据，那么不删除数据会更干净。
很好的答案，不过有一个问题，我可以在 java 中使用 Normalizer 并使用 InCombiningDiacriticalMarks 但排除某些字符，例如 ü 转换为 u 吗？
是的，我完全理解了这一切

【解决方案2】：

花了我一段时间，但我把它们都捞出来了：

Here's regex 应包括所有 zalgo 字符，包括在“正常”范围内绕过的字符。

([\u0300–\u036F\u1AB0–\u1AFF\u1DC0–\u1DFF\u20D0–\u20FF\uFE20–\uFE2F\u0483-\u0486\u05C7\u0610-\u061A\u0656-\u065F\u0670\u06D6-\u06ED\u0711\u0730-\u073F\u0743-\u074A\u0F18-\u0F19\u0F35\u0F37\u0F72-\u0F73\u0F7A-\u0F81\u0F84\u0e00-\u0eff\uFC5E-\uFC62])

希望这可以为您节省一些时间。

【讨论】：