【发布时间】:2009-11-04 14:49:21
【问题描述】:
来自 Emacs 23.1 NEWS:
*** Emacs 字符集现在是 Unicode 的超集。 (它大约有 四倍的代码空间,其中 应该很多)。
稍后会详细介绍:
*** 在多字节缓冲区和字符串中,字符由 UTF-8 表示 字节序列。字符代码 空间现在是 0x0..0x3FFFFF 没有 差距;代码点 0x0..0x10FFFF 是 相同代码的 Unicode 字符 点,而代码点 0x3FFF80..0x3FFFFF 是原始的 8 位 字节。
根据维基百科,UCS 的BMP 有65536 个字符,最新版本的Unicode 包含超过107000 个字符,UCS 有超过一百万个代码点。 0x3FFFFF 超过四百万。
可以解决哪些问题,或者拥有作为 Unicode 超集的内部字符集有什么好处?
【问题讨论】: