【发布时间】:2011-01-20 07:30:58
【问题描述】:
如果我有一个包含 UTF8 内容的字节数组,我将如何解析它?是否有分隔符字节可以拆分来获取每个字符?
【问题讨论】:
-
注意格式错误的输入,例如,如果序列超过 4 个字节,请确保您的代码不会出现缓冲区溢出等坏事。
-
一旦你完成了必要的位选择,你最终会得到一堆字符,每个字符的长度从 1 到 4 个字节不等;你打算怎么办?为什么不直接解码并处理生成的 Unicode 字符?
-
@JohnMachin 在我的情况下,“一堆字符”太大而无法一次性处理,我的代码搜索一个安全的字节偏移量来将数据分割成可以工作的更小的块单独使用。