5. GB18030
GB18030到目前为止有俩个版本:GB18030-2000和GB18030-2005.
GB18030-2000收录了27533个汉字,而GB18030-2005收录了70244个汉字。 大家知道GB2312虽然收录了大部分的汉字,基本满足需求,但是像一些人名,地名以及古汉语中的罕见字,Gb2312是无法处理的。在这种情况下,就产生了GBK和Gb18030.
这里要注意GBK并不是国家标准,而只是一个具有指导性的规范。
Gb18030采用单字节,双字节和四字节三种方式对字符进行编码。单字节部分使用0x00-0x7F,双字节部分,首字节码位从0×81-0×FE,尾字节码位分别是0×40-0×FE(除了0x7F)。四字节部分, 第一和第三字节编码是0x81-0xFE, 第二和第四字节编码码位是0x30-0x39.
GB18030单字节部分是与ASCII兼容;双字节部分是与GBK基本兼容;四字节部分,它容纳了Unicode BMP中无法被GBK涵盖的部分
GB18030-2005是在GB18030-2000的基础上做如下的调整:
a. 在四字节字符表中增加CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字字符的字形。其实GB18030-2000已经映射了这些码位,但GB18030-2000没有给出这些字符的字形。
b. 调整字符的编码。
c. 去掉了单字节编码的欧元符号(0x80)。
本文详细介绍了GB18030编码标准的两个版本:GB18030-2000和GB18030-2005,并对比了它们在字符收录数量上的区别。此外还解释了GB18030如何通过单字节、双字节和四字节来编码字符,以及与ASCII和GBK的兼容情况。
&spm=1001.2101.3001.5002&articleId=4543839&d=1&t=3&u=7efb0639410043fd85f1eb2714a502ef)
2250

被折叠的 条评论
为什么被折叠?



