ICS 35.040 CCS L 71 中华人民共和国国家标准 GB18030—2022 代替GB18030—2005 信息技术 中文编码字符集 Information technologyChinese coded character set 2023-08-01实施 2022-07-19发布 国家市场监督管理总局 发布 国家标准化管理委员会 GB18030—2022 目 次 前言 范围 1 2 规范性引用文件 术语和定义 字汇 5 总体结构 6 字符的排列顺序 码位分配 7 部分字符和代码的说明 实现的级别 9 附录A(规范性) 双字节字符表 附录B(规范性) 表意文字描述符 91 附录C(规范性) 四字节字符表 92 附录D(资料性) 部分字符和代码的说明 546 附录E(资料性) 《通用规范汉字表》汉字的代码位置 参考文献· 743 GB18030—2022 前言 起草。 和编辑性改动外,主要技术变化如下: a)增加了本文件适用对象(见第1章); b) 在双字节编码区更改了10个竖排标点和8个汉字构件所对应的GB/T13000代码位置,并删 除了6个重复编码的汉字构件和9个重复编码的汉字(见附录D,2005年版的附录A); 在四字节编码区更改了18个GB/T13000代码位置(见附录D,2005年版的附录D); (P ((见附录C); 在四字节编码0x98399F38~0x9839B539部分增加了CJK统一汉字扩充D的222个汉字(见 附录C); 在四字节编码0x9839B6320x9933FE33部分增加了CJK统一汉字扩充E的5762个汉字 (见附录C); h) 在四字节编码0x99348138~0x9939F730部分增加了CJK统一汉字扩充F的7473个汉字(见 附录C); i) 在四字节编码0x81398B32~0x8139A035部分增加了康熙部首214个(见附录C); j) 在四字节编码0x81358B32~0x81359933部分增加了127个西双版纳老傣文字符(见附录C); 1) 在四字节编码0x82369535~0x82369A32部分增加了48个文字符(见附录C); 在四字节编码0x9034C538~0x9034C730部分增加了13个蒙古文BIRGA符号(见附录C); m) n) 在四字节编码0x9232C6360x9232D635部分增加了149个滇东北苗文字符(见附录C); o) 删除了附录“追加的汉字及部首/部件”(见2005年版的附录C); p) 增加了“实现的级别”一章(见第9章); 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任 本文件由中华人民共和国工业和信息化部提出并归口。 本文件及其所代替文件的历次版本发布情况为: -2000年首次发布为GB18030一2000,2005年第一次修订; 一本次为第二次修订。 1 GB18030—2022 信息技术 中文编码字符集 1范围 本文件规定了信息技术用的中文图形字符及其二进制编码的十六进制表示。 本文件适用于中文和其他文字图形字符信息的处理、交换、存储、传输、显现、输入和输出 本文件适用于为具备中文和其他文字图形字符信息化处理及交换功能的技术类产品,包括但不限 于以输入法、光学字符识别(OCR)、编辑校对、机器翻译、语音合成、文字转写、智能写作等为代表的软 件产品,以及以计算机、通信终端设备、电子书阅读器、学习机等为代表的硬件产品。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 本文件。 GB/T2312—1980信息交换用汉字编码字符集基本集 GB/T11383一1989信息处理信息交换用八位代码结构和编码规则 GB/T13000信息技术通用多八位编码字符集(UCS) 3 术语和定义 下列术语和定义适用于本文件。 3.1 字符 Fcharacter 供组织、控制或表示数据用的元素集合中的一个元素 3.2 编码字符 Fcodedcharacter 字符(3.1)及其编码表示 3.3 用户自定义区 privateusearea 使用符合本文件的产品的使用者可以自行规定的区域。 3.4 字汇 repertoire 用编码字符(3.2)集表示的一个指定的字符(3.1)集合。 3.5 保留区 reserved zone 留作未来本文件规定的区域, 1 GB18030—2022 4字汇 4.1概述 本文件收录的学符以单字节、双字节或四字节编码 4.2 单字节部分 单字节部分收录了GB/T11383—1989的0x00~0x7F全部128个字符。 4.3 双字节部分 双字节部分收录了GB/T2312一1980中的全部图形字符,GB/T13000中的CJK统一汉字以及部 分图形字符。双字节部分的字符按照附录A的规定。其中,表意文字描述符的图形、代码位置和功能 应符合附录B的规定。 注:GB/T13000对中国、日本、韩国、越南等国家和地区使用的汉字统一编码。具备独有抽象字形的汉字,赋予单 (CJKUnifiedIdeographs),其中CJK表示中国、日本、韩国。 4.4[ 四字节部分 四字节部分收录了上述双字节字符之外的GB/T13000中的66个CJK统一汉字(9FA6~9FEF, 不包括9FB4~9FBB的8个字符)、CJK统一汉字扩充A,CJK统一汉字扩充B.CJK统一汉字扩充C、 民族文字的字符。四字节部分的字符按照附录C的规定 5总体结构 正文中凡数字前标有0x的表示采用十六进制,未标有0x的表示采用十进制。附录中凡编码的表 示均采用十六进制,其他数字的表示均采用十进制。 单字节部分采用GB/T11383—1989的编码结构,使用0x00~0x7F码位。 别是0x40~0x7E和0x80~0xFE。 四字节部分采用GB/T11383一1989未采用的0x300x39作为对双字节编码扩充的后缀,编码范 围为0x81308130~0xFE39FE39。四字节字符的第一个字节编码范围为0x81~0xFE;第二个字节编码 0x813081300x81308139; 0x81308230~0x81308239; 0x8130FE30~0x8130FE39; 0x81318130~0x81318139; . 0x8131FE30~0x8131FE39; .. 0x82308130~0x82308139; 2 GB18030—2022 ...... Ox8230FE30~0x8230FE39; 0xFE308130~0xFE308139; .... 0xFE39FE30~0xFE39FE39。 总体结构与码位范围分配见图1和表1。 0x00 0x7F 单字节结构 0x40 0x7F 0x80 -0xFT? T8x0 首 节 OxFE 双字节结构 共1260组 0x81 0x81 0x81 第 4 字 节 节 1 OxFT: OxFE 0x30 0x39 0x30 0x39 第二字节 第四字节 OxFT 0x30 →0x39 第二、四字节 四字节总体 结构 结构 结构 图 1 总体结构图 3 GB18030—2022 表1 码位范围分配 码位数目 编码类型 码位空间 单字节 0x00~0x7F 128 第一字节 第二字节 双字节 23940 0x81~0xFE 0x40~0x7E.0x80~0xFE 第一字节 第二字节 第三字节 第四字节 四字节 1587600 0x81~0xFE 0x30~0x39 0x81~0xFE 0x30~0x39 字符的排列顺序 6 6.1 单字节部分字符的排列顺序 单字节部分字符按照GB/T11383一1989中相应字符的顺序排列。 6.2 双字节部分字符的排列顺序 双字节部分字符排列顺序应符合附录A。 6.3 四字节部分字符的排列顺序 自0x81308130至0x8439FE39共50400个码位,对应双字节部分未包括的所有GB/T13000基本 多文种平面的字符,按照GB/T13000基本多文种平面相应字符的顺序排列。 自0x90308130至0xE339FE39共1058400个码位用于对应GB/T13000的16个辅助平面,字符 排列顺序完全按照GB/T13000的16个辅助平面的相应码位顺序依次排列。 四字节部分字符排列顺序应符合附录C。 7 码位分配 7.1 单字节部分的码位分配 单字节部分的码位按照GB/T11383一1989的规则分配。单字节码位分配见图2。 4 GB 18030—2022 b8 b7 0 b6 b5 b463b2b1 08 09 04 15 ESC 图2 单字节区码位图 7.2双字节部分的码位分配 字节码位分配见图3及表2。 0x10 0x7E0x80 0xA00xA1 OxFE 0x81 双字节3区:6080码位 首字节 OxAO OxA1 双字节用户区3:672码位 双字节1区:846鹤位 OxA7 0xA8~0xA9 OxAA 双字节用广区1:564码位 双字节5区: 192码位 双字节2区:6768码位 双字节4区:8160码位 双字节用户区2:658码位 网汉字区(21008) 图彤符号区(1038)用广白定义区(1894) 总计:23940个码位 图3双字节部分编码空间结构图 5 GB 18030—2022 表2 双字节部分的码位安排 类别 区名 码位范围 码位数 字符数 字符类型 首字节0xA1~0xA9 符 双字节1区 846 728 图形符号 尾字节0xA1~0xFE 号 首字节0xA8~0xA9 区 1

pdf文档 GB 18030-2022 信息技术 中文编码字符集

文档预览
中文文档 163 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共163页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB 18030-2022 信息技术  中文编码字符集 第 1 页 GB 18030-2022 信息技术  中文编码字符集 第 2 页 GB 18030-2022 信息技术  中文编码字符集 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2023-01-18 17:30:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。