【发布时间】:2011-06-03 02:23:03
【问题描述】:
我正在尝试制作我自己的 wc 版本(unix 过滤器),但我遇到了非 ASCII 字符的问题。我做了一个文本文件的十六进制转储,发现这些字符占用了一个以上的字节。所以他们不适合炭化。有什么方法可以从文件中读取这些字符并将它们像 C 中的单个字符(为了计算文件中的字符数)一样处理? 我一直在谷歌搜索,发现了一些 wchar_t 类型,但没有任何简单的示例如何将它与文件一起使用。
【问题讨论】:
-
您将需要了解 Unicode,尤其是编码。您目前知道这些术语的含义吗?
-
另外,您可能想了解非 ASCII 单字节编码,例如各种 ISO 编码、Windows 1252 等。您可能知道,ASCII 实际上是 7 位宽的编码。跨度>
-
@Joey 谢谢,所以习惯了 ASCII、ISO、ANSI 等。我养成了一个坏习惯!