【发布时间】:2011-07-13 14:21:06
【问题描述】:
在 java 中比较两个 utf-8 字符串(一个是文本,另一个是要查找的模式)以进行精确匹配时,是否需要使用 Collator 或者是否足以规范化两个字符串并使用简单的charAt 比较?
有关国际化文本搜索和使用 Collators 的更多信息,请查看http://www.developertutorials.com/tutorials/java/text-searching-java-050524-1453/
示例:在西班牙语中“ch”可能是一个字母,而在英语中是两个字母。所以“恰帕斯”这个词可能看起来一样,但如果不考虑这一点,匹配就会失败。
【问题讨论】:
-
“UTF-8 字符串”是什么意思?当它在 Java 中是 String 时,原来的二进制编码已经无关紧要了。
-
你能给我们举个例子,把两个“完全匹配”的字符串作为边缘情况,所以我们知道你的意思吗?
-
示例:在西班牙语中“ch”可能是一个字母,而在英语中是两个字母。所以“恰帕斯”这个词可能看起来一样,但如果不考虑这一点,匹配就会失败。
标签: java utf-8 internationalization