【发布时间】:2014-04-01 15:55:11
【问题描述】:
我正在解析一些 UTF-8 文本,但只对 ASCII 范围内的字符感兴趣,也就是说,我可以跳过多字节序列。
我可以很容易地检测到序列的开头,因为设置了符号位,所以 char 的值
我不需要执行任何验证,即我可以假设输入是有效的 UTF-8。
【问题讨论】:
-
请记住,
char可以实现为有符号或无符号,具体取决于您的编译器。如果 charch设置了高位,则可能表示ch < 0或表示ch >= 128。