【问题标题】:Regex: what is InCombiningDiacriticalMarks?正则表达式:什么是 InCombiningDiacriticalMarks?
【发布时间】:2011-08-07 12:26:20
【问题描述】:

以下代码是众所周知的将重音字符转换为纯文本的代码:

Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

我用这个替换了我的“手工”方法,但我需要了解 replaceAll 的“正则表达式”部分

1) 什么是“InCombiningDiacriticalMarks”?
2)它的文档在哪里? (和类似的?)

谢谢。

【问题讨论】:

标签: java regex unicode


【解决方案1】:

\p{InCombiningDiacriticalMarks} 是一个 Unicode 块属性。在 JDK7 中,您将能够使用两部分表示法 \p{Block=CombiningDiacriticalMarks} 来编写它,这对读者来说可能更清楚。它记录在here in UAX#44: “The Unicode Character Database”

这意味着代码点位于特定范围内,即一个块,已分配给该名称的事物使用。这是一种不好的方法,因为不能保证该范围内的代码点是或不是任何特定的东西,也不能保证该块之外的代码点本质上不是相同的字符。

例如,\p{Latin_1_Supplement} 块中有拉丁字母,如 é、U+00E9。但是,那里也有不是拉丁字母的东西。当然,到处都是拉丁字母。

方块几乎从来都不是你想要的。

在这种情况下,我怀疑您可能想要使用属性\p{Mn},也就是\p{Nonspacing_Mark}。 Combining_Diacriticals 块中的所有代码点都属于这种类型。还有(从 Unicode 6.0.0 开始)1087 个 Nonspacing_Marks 在该块中是 not

这与检查\p{Bidi_Class=Nonspacing_Mark} 几乎相同,但不完全一样,因为该组还包括封闭标记\p{Me}。如果你想要两者,你可以说[\p{Mn}\p{Me}],如果你使用的是默认的Java regex引擎,因为它只允许访问General_Category属性。

您必须像 Google 那样使用 JNI 访问 ICU C++ 正则表达式库才能访问 \p{BC=NSM} 之类的内容,因为目前只有 ICU 和 Perl 可以访问所有 Unicode 属性。普通的 Java 正则表达式库只支持几个标准的 Unicode 属性。尽管在 JDK7 中 支持 Unicode Script 属性,但它几乎无限优于 Block 属性。因此,您可以在 JDK7 中编写 \p{Script=Latin}\p{SC=Latin},或快捷方式 \p{Latin},以获取拉丁脚本中的任何字符。这导致非常常用[\p{Latin}\p{Common}\p{Inherited}]

请注意,这不会从所有字符中删除您可能认为的“重音”标记!有很多它不会这样做。例如,您不能通过这种方式将 Đ 转换为 Dø 转换为 o。为此,您需要将代码点减少到与 Unicode 排序表中相同的主要排序强度匹配的代码点。

\p{Mn} 失败的另一个地方当然是包含\p{Me} 之类的标记,显然,但也有\p{Diacritic} 字符不是标记。遗憾的是,您需要为此提供完整的属性支持,这意味着 JNI 对于 ICU 或 Perl。恐怕 Java 在 Unicode 支持方面存在很多问题。

哦,等等,我看到你是葡萄牙人。如果您只处理葡萄牙语文本,那么您应该没有任何问题。

但是,我敢打赌,您并不是真的想删除重音,而是希望能够“不区分重音”地匹配事物,对吧?如果是这样,那么您可以使用ICU4J (ICU for Java) collator class 这样做。如果您以主要强度进行比较,则重音符号将不计算在内。我一直这样做是因为我经常处理西班牙语文本。如果您需要,我有一个示例,说明如何为坐在附近的西班牙人执行此操作。

【讨论】:

  • 所以,我必须假设整个网络(甚至在 SO 中)给出的方法不是“DeAccent”一词的推荐方法。我直接为葡萄牙语做了一个,但看到了这种奇怪的方法(就像你说的,它适用于我的目的,但我的最后一种方法确实如此!)。那么,是否有更好的“实施良好”的方法来涵盖大多数场景?一个例子会很好。感谢您的宝贵时间。
  • @Marcolopes:我一直保持数据完整,并使用 Unicode 排序算法进行主要强度比较。这样它只比较字母,但忽略大小写和重音标记。它还让那些应该是同一个字母的东西be是同一个字母,去除重音只是一种苍白且不能令人满意的近似。另外,如果您可以按照您想要但不需要的方式使用数据,那么不删除数据会更干净。
  • 很好的答案,不过有一个问题,我可以在 java 中使用 Normalizer 并使用 InCombiningDiacriticalMarks 但排除某些字符,例如 ü 转换为 u 吗?
  • 是的,我完全理解了这一切
【解决方案2】:

花了我一段时间,但我把它们都捞出来了:

Here's regex 应包括所有 zalgo 字符,包括在“正常”范围内绕过的字符。

([\u0300–\u036F\u1AB0–\u1AFF\u1DC0–\u1DFF\u20D0–\u20FF\uFE20–\uFE2F\u0483-\u0486\u05C7\u0610-\u061A\u0656-\u065F\u0670\u06D6-\u06ED\u0711\u0730-\u073F\u0743-\u074A\u0F18-\u0F19\u0F35\u0F37\u0F72-\u0F73\u0F7A-\u0F81\u0F84\u0e00-\u0eff\uFC5E-\uFC62])

希望这可以为您节省一些时间。

【讨论】:

    猜你喜欢
    • 2015-06-09
    • 2011-06-15
    • 2013-04-07
    相关资源
    最近更新 更多