【发布时间】:2011-05-05 19:23:24
【问题描述】:
我正在寻找允许文本“规范化”的 java 库。类似于标准Normalizer,但更宽(类似于utf8proc LUMP)。
它应该将所有类型的特殊字符替换为 ASCII 等价物(当然,如果可能的话)。所有空格的变体编码为 32,所有减号的变体(长、短、细等)编码为 45,依此类推。
【问题讨论】:
-
PS:看来我必须实现它。有什么想法吗?
标签: java string text normalization