【发布时间】:2010-04-23 19:11:32
【问题描述】:
哪个字符编码(或编码组合)将字符ö(U+00F6、LATIN SMALL LETTER O WITH DIAERESIS 或简单地将chr(246) 放入 ISO-8859-1 中)表示为四个八位字节组合chr(195) . chr(63) . chr(194) . chr(164)?
【问题讨论】:
-
我不打赌。你确定你没有搞砸什么吗?
-
leonbloy:输入很可能是混乱的,因为已经进行了多种编码。
-
是的,但是,您确定该四个字节的序列与 U+00F6 字符完全对应(不多也不少)?你看 chr(195) 和 chr(194) 是典型的 UTF-8 编码,但是它们后面跟着一个大于 127 的字节。
-
chr(63)(0x3F) 是?字符,这通常表明数据可能已通过不兼容的字符集转换并因此丢失。
标签: unicode utf-8 internationalization character-encoding