【发布时间】:2010-10-17 23:27:48
【问题描述】:
我有一些 Perl 代码可以将换行符和换行符转换为规范化形式。 输入文字是日文,所以会有多字节字符。
是否仍然可以逐字节地进行这种转换(我认为目前是这样),还是我必须检测字符集并启用 Unicode 支持?换句话说,流行的编码(Shift-JIS、EUC-JP、UTF-8、ISO-2022-JP)是否使用字节作为其字符集的一部分,可能会被误认为是 ASCII 控制字符?
我只需要 CR 和 LF 就可以工作。
更新:添加了 ISO-2022-JP。这就是它的时髦转义序列看起来最麻烦的一个......
【问题讨论】:
标签: unicode character-encoding newline cjk