汉字编码字符集 GB2312 GBK GB18030
GB 2312
简介
GB_2312 字符集包含了 6763个的 简体汉字,和682 个标准中文符号。
在这个标准中,每个汉字用2个字节来表示,每个字节的ascii码为 161-254 (16 进制A1 - FE),第一个字节 对应于 区码的1-94 区,第二个字节 对应于位码的1-94 位。
分区表示
GBK
简介
GBK是对GB2312-80的扩展,GBK向下完全兼容GB2312-80编码。
编码方式
GB 1803
简介
字节结构
- 单字节,其值从0到0x7F。
- 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
- 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。
GB18030的规范是汉字第一个字节在0x81-0xFE之间,第二个字节位于区间0x40-0x7E以及0x80-0xFE。每个字节转化为整数大于128。
================================================================================================
总体结构
标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。双字节部分,首字节码位从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。
|
类别
|
码位范围
|
码位数
|
字符数
|
字符类型
|
|
双字节部分
|
第一字节 0xB0-0xF7
第二字节 0xA1-0xFE
|
6768
|
6763
|
汉字
|
|
第一字节0x81-0xA0
第二字节0x40-0xFE
|
6080
|
6080
|
汉字
|
|
|
第一字节0xAA-0xFE
第二字节0x40-0xA0
|
8160
|
8160
|
汉字
|
|
|
四字节部分
|
第一字节0x81-0x82
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
|
6530
|
6530
|
CJK统一汉字扩充A
|
|
类别
|
码位范围
|
码位数
|
字符数
|
字符类型
|
|
双字节部分
|
第一字节 0xB0-0xF7
第二字节 0xA1-0xFE
|
6768
|
6763
|
汉字
|
|
第一字节0x81-0xA0
第二字节0x40-0xFE
|
6080
|
6080
|
汉字
|
|
|
第一字节0xAA-0xFE
第二字节0x40-0xA0
|
8160
|
8160
|
汉字
|
|
|
四字节部分
|
第一字节0x81-0x82
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
|
6530
|
6530
|
CJK统一汉字扩充A
|
|
第一字节0x95-0x98
第二字节0x30-0x39
第三字节0x81-0xFE
第四字节0x30-0x39
|
42711
|
42711
|
CJK统一汉字扩充B
|
|
参考:
国家标准代码:http://zh.wikipedia.org/wiki/国家标准代码
GBK:http://zh.wikipedia.org/wiki/GBK
GB 18030:http://zh.wikipedia.org/wiki/GB18030