它不起作用,因为您的代码将多字节字符分成单独的字符。由于您的控制台期望是一个有效的多字节代码,在看到第一个代码之后,它没有接收正确的代码,你得到你的<?>——免费翻译,“啊?”。它没有收到正确的代码,因为您在其中填充了空格和换行符。
只有在您发送正确的代码并以正确的顺序发送时,您的控制台才能正确解释 UTF8 字符。算法是:
- 下一个字符是 UTF-8 序列的起始码吗?如果没有,请打印并继续。
- 如果是,则打印并打印此字符的所有“下一个”代码。实际编码见Wikipedia on UTF8;我在下面的代码中使用了快捷方式。
- 然后才打印您的空格 (..?) 和换行符。
识别 UTF8 多字节字符的开头和长度的过程如下:
- “常规”(ASCII) 字符永远不会设置第 7 位。针对
0x80 的测试足以将它们与UTF8 区分开来。
- 每个 UTF8 字符序列开始以位模式
110xxxxx、1110xxxx、11110xxx、111110xx 或 1111110x 之一。每个唯一的位模式都有相关的额外字节数。例如,第一个需要 一个 额外的字节。 xxx 位与来自下一个字节的位组合以形成 16 位或更长的 Unicode 字符。 (毕竟,这就是 UTF8 的意义所在。)
- 每个下一个字节——不管有多少! -- 具有位模式
10xxxxxx。重要提示:没有之前的模式都以此代码开头!
因此,只要您看到任何 UTF8 字符,您就可以立即显示它和所有“下一个”代码,只要它们以位模式@ 开头987654334@。这可以使用位掩码进行有效测试:value & 0xc0,结果应该是0x80。任何其他值都意味着它不再是“下一个”字节,所以你就完成了。
所有这些只有在您的源文件是有效的 UTF8 时才有效。如果你看到一些奇怪的输出,很可能不是。如果您需要检查输入文件的有效性,确实需要在 Wikipedia 页面中实现整个表格,并检查每个 110xxxxx 字节实际上是否后面跟着一个 10xxxxxx 字节, 等等。出现在自身上的模式10xxxxxx 表示错误。
绝对必读的是 Joel Spolsky 的 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)。有关更多背景信息,另请参阅UTF-8 and Unicode FAQ for Unix/Linux。
我下面的代码解决了您的其他一些问题。我使用了英文变量名(参见 Meta Stackoverflow "Foreign variable names etc. in code")。在我看来strdup 是没有必要的。另外,string 是一个 C++ 表达式。
我的代码不会“修复”或处理 UTF-8 打印之外的任何内容。由于您使用了strtok,因此代码仅打印输入文件中每一行上第一个\t 制表符之前的文本。我假设你知道你在那里做什么;-)
补充:啊,忘了说 Q2,“将这些字符保存在内存中的好方法是什么”。 UTF8 旨在最大程度地兼容 C 类型的 char 字符串。您可以这样安全地存储它们。你不需要做任何特别的事情来在一个支持 UTF8 的控制台上打印它们——好吧,除非你像在这里一样做一些事情,将它们打印为单独的字符。 printf 应该适用于整个单词。
如果您需要 strcmp、strchr 和 strlen 的 UTF8 感知等效项,您可以编写自己的代码(请参阅上面的 Wikipedia 链接)或为自己找到一个好的预制库。 (我故意漏掉了strcpy!)
#define MAX_LINE_LENGTH 1024
int main (void)
{
char line[MAX_LINE_LENGTH], *word;
FILE *entry_file = fopen("D.txt", "r");
if (!entry_file)
{
printf ("not possible to open entry_file\n");
return -1;
}
while (fgets(line, MAX_LINE_LENGTH, entry_file))
{
word = strtok(line, "\t");
while (*word)
{
/* print UTF8 encoded characters as a single entity */
if (*word & 0x80)
{
do
{
printf("%c", *word);
word++;
} while ((*word & 0xc0) == 0x80);
printf ("\n");
} else
{
/* print low ASCII characters as-is */
printf("%c \n", *word);
word++;
}
}
}
return 0;
}