ICS 35.040 L 71 GB 中华人民共和国国家标准 GB18030—2005 信息技术 中文编码字符集 Information technology-Chinese coded character set 2005-11-08发布 2006-05-01实施 中华人民共和国国家质量监督检验检疫总局 发布 中国国家标准化管理委员会 GB18030—2005 目 次 前言 1 范围 规范性引用文件 2 3 原则 术语和定义 字汇 6 总体结构 7 字符的排列顺序 8码位分配 附录A(规范性附录) 双字节字符表 A.1表的内容 A.2表的说明.. 附录B(规范性附录) 表意文字描述符 附录C(规范性附录) 追加的汉字及部首/构件 90 附录D(规范性附录) 四字节字符表 91 D.1表的内容 91 D.2表的说明 91 附录E(规范性附录)部分字符代码的说明 499 GB18030—2005 前言 本标准的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(即 0x8139EE39—0x82358738)部分为强制性, 本标准代替GB18030一2000《信息技术信息交换用汉字编码字符集 基本集的扩充》。本标准 与上一版比,增加了编码汉字的数量,并补充规定了我国部分少数民族文字在本标准中的代码位置;本 标准重新规定了字符“m"的编码位置;本标准的编码体系结构保持不变。 本标准的附录A、附录B、附录C、附录D和附录E是规范性附录。 本标准由中华人民共和国信息产业部提出。 本标准由中国电子技术标准化研究所归口。 本标准起草单位:信息产业部电子工业标准化研究所、北京大学计算机技术研究所、北大方正集团、 北京方正新天地信息网络科技有限责任公司、四通集团公司、中国电子信息产业发展研究院、中科院软 件所、长城软件公司、四通利方公司、中软总公司、金山软件公司、联想集团有限公司。 本标准主要起草人:陈堃、黄疆、胡万进、张建国、陈壮。 本标准于2000年首次发布,本次为第一次修订。 ⅢI GB18030—2005 信息技术中文编码字符集 1范围 本标准作为GB/T2311体系的编码字符标准,规定了信息技术用的中文图形字符及其二进制编码 的十六进制表示。 本标准适用于图形学符信息的处理、交换、存储、传输、显现、输入和输出 2规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有 的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究 是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 GB/T2311一2000信息处理字符代码结构与扩充技术(idtISO/IEC2022:1994) GB2312—1980信息交换用汉字编码字符集基本集 GB/T11383—1989信息处理信息交换用八位代码结构和编码规则(idtISO4873:1986) GB12345—1990信息交换用汉字编码字符集辅助集 种平面(idtISO/IEC10646-1:1993) 3原则 本标准向下与国家标准GB2312信息处理交换码所对应的内码兼容 统一汉字扩充B)字符和我国部分少数民族文字的字符。 4术语和定义 下列术语和定义适用于本标准。 4.1 字符character 供组织、控制或表示数据用的元素集合中的一个元素。 4. 2 编码字符 Fcoded character 字符及其编码表示。 4. 3 字汇repertoire 用编码字符集表示的一个指定的字符集合。 4. 4 保留区 reservedzone 本标准中留作未来国家标准规定的区域。S 5字汇 本标准收录的字符以单字节、双字节或四字节编码。 1 GB18030—2005 5.1单字节部分 本标准中,单字节的部分收录了GB/T11383—1989的0x00到0x7F全部128个字符。 5.2双字节部分 本标准中,双字节的部分收录内容如下: GB13000.1一1993的全部CJK统一汉字字符。见附录A。 GB13000.1一1993的CJK兼容区中的21个汉字。见附录A GB13000.1一1993中收录而GB2312未收录的我国台湾地区使用的图形字符139个。见附录A。 GB13000.1一1993收录的其他字符31个。见附录A。 GB2312一1980中的非汉字符号。见附录A。 GB12345—1990的竖排标点符号19个。见附录A。 GB2312一1980未收录的10个小写罗马数字。见附录A。 GB2312一1980未收录的带音调的汉语拼音字母5个以及α和g。见附录A。 汉字数字“O”。见附录A。 表意文字描述符13个。见附录A和附录B 对GB13000.1一1993增补的汉字和部首/构件80个。见附录A和附录C。 双字节编码的欧元符号。见附录A。 5.3四字节部分 本标准的四字节的部分,收录了上述双字节字符之外的,GB13000的CJK统一汉字扩充A、CJK 统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字符。见附录D。 6总体结构 本标准中,采用单字节、双字节或四字节对字符编码。本标准中的任何二个字节均由八位二进制位 串组成,任何一个八位的值均由0x00至0xFF的十六进制记数法表示。本标准中,凡数字前标有0x的 表示采用十六进制,未标有0x的表示采用十进制。 单字节部分采用GB/T11383一1989的编码结构与规则,使用0x00至0x7F码位。 双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81至0xFE,尾字节码位分 别是0x40至0x7E和0x80至0xFE。 四字节部分采用GB/T11383一1989未采用的0x30到0x39作为对双字节编码扩充的后缀。这样 扩充的四字节编码,其范围为0x81308130到0xFE39FE39。四字节字符的第一个字节编码范围为0x81 至0xFE;第二个字节编码范围为0x30至0x39;第三个字节编码范围为0x81至0xFE;第四个字节编码 范围为0x30至0x39。即 0x81308130至0x81308139; 0x81308230至0x81308239; ...... 0x8130FE30至0x8130FE39; 0x81318130至0x81318139; 0x8131FE30至0x8131FE39; .... 0x82308130至0x82308139; .... 0x8230FE30至0x8230FE39; 0xFE308130至0xFE308139; 2 GB18030—2005 0xFE39FE30至0xFE39FE39。 总体结构见表1及图1。 表1码位范围分配图 字节数 码 位 间 码位数目 单字节 0x00~0x7F 128个码位 第一字节 第二字节 双字节 0x40~0x7E, 23940个码位 0x81~0xFE 0x80~0xFE 第一字节 第二字节 第三字节 第四字节 四字节 1587600个码位 0x81~0xFE 0x30~0x39 0x81~0xFE 0x30~0x39 0x00 总宁结构 0x7F 尾宁节 0x7E 0x80 0x10 -0xFE 0x81 3xFE 双字节构 共1260 0x81 0x81 0x81 第 三疗节 节 第 0xFE CxFE -- 0x39 ix30 +- 0x39 第二字节 第四字# OxFE 0 x30 - - 0x39 第四宇节 第一、二宁节 第、四宁节 四宁节总体 结构 构 结构 图 1 总体结构图 7字符的排列顺序 7.1 单字节部分字符的排列顺序 本标准中单字节部分所有字符按照GB/T11383—1989中相应字符的顺序排列。见图2。 3 GB180302005 7.2双字节部分字符的排列顺序 本标准双字节部分的字符排列顺序见附录A。 7.3四字节部分字符的排列顺序 自0x81308130至0x8439FE39共50400个码位,对应本标准双字节部分未包括的所有GB13000 基本多文种平面的字符,按照GB13000基本多文种平面相应字符的顺序排列,剩余码位保留。 自0x85308130至0x8539FE39共12600个码位,为本标准的保留区,留待未来字符扩展使用。 自0x86308130至0x8F39FE39共126000个码位,为本标准的保留区,留待未来汉字字符扩展 使用。 列顺序完全遵照GB13000的16个辅助平面的相应码位顺序依次排列,剩余码位保留。 自0xE4308130至0xFC39FE39共315000个码位,为本标准的保留区,留待未来标准扩展使用。 自0xFD308130至0xFE39FE39共25200个码位,为用户自定义区。 见附录D。 8码位分配 8.1单字节部分的码位分配 本标准中,单字节部分的码位分配见GB/T11383一1989。见图2。 hs0 7 06 b4/b 3lb2b1 (H) 90 S 001 03 ESC [E] 图2单字节区码位图

pdf文档 GB 18030-2005 信息技术 中文编码字符集

文档预览
中文文档 502 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共502页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB 18030-2005 信息技术 中文编码字符集 第 1 页 GB 18030-2005 信息技术 中文编码字符集 第 2 页 GB 18030-2005 信息技术 中文编码字符集 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2022-09-21 04:58:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。