GB18030 (含少数民族文字 70000个汉字) 中文字符集


GB18030 有两个版本:GB18030-2000 和 GB18030-2005。

GB18030-2005 与 GB18030-2000 的编码体系结构是完全相同的。

GB18030-2000 是 GBK 的取代版本,是在 GBK 基础上增加了 CJK 统一汉字扩充 A 汉字


2000 年发布的 GB18030-2000, 全名《信息技术汉字编码字符集基本集的扩充》。

GB18030-2000 仅规定了常用非汉字符号和 27533 个汉字 (包括部首 部件等) 的编码。 GB18030-2000 是全文强制性标准, 市场上销售的产品必须符合。

国家标准 GB18030-2000 《信息交换用汉字编码字符集基本集的补充》 是我国继 GB2312-1980 和 GB13000-1993 之后最重要的汉字编码标准, 是我国计算机系统必须遵循的基础性标准之一。

GB18030-2000 编码标准是由信息产业部和国家质量技术监督局在 2000 年 3 月 17 日联合发布的, 并将作为一项国家标准在 2001 年的 1 月正式强制执行。

GB18030-2005 是在 GB18030-2000 基础上增加了 CJK 统一汉字扩充 B 汉字


GB18030-2005《信息技术中文编码字符集》是我国自主研制的以汉字为主, 并包含多种我国少数民族文字 (譬如:藏 蒙古 傣 彝 朝鲜 维吾尔文等) 的超大型中文编码字符集强制性标准,收入汉字 70000 余个。

2005 年发布的 GB18030-2005, 是在 GB18030-2000 的基础上增加了 42711 个汉字和多种我国少数民族文字编码, 增加的这些内容是推荐性的。

故 GB18030-2005 为部分强制性标准,自发布之日起代替 GB18030-2000。

GB18030-2005 的单字节编码部分、双字节编码部分和四字节编码部分的 CJK 统一汉字扩充 A (即:0x8139EE39 — 0x82358738) 部分为强制性。

01. 在四字节字符表中增加 CJK 统一汉字扩充 B 和已在 GB13000 中编码的我国少数民族文字字符的字形。

其实 GB18030-2000 已经映射了这些码位, 但 GB18030-2000 没有给出这些字符的字形。

02. 调整字符 ? 编码。

03. 去掉了单字节编码的欧元符号 (0x80)。

声明: 其实 GBK 和 GB18030-2000 都没有单字节编码的欧元符号,微软的 CP936 才有这个符号并定义在 0x80。

内容表

  1. GB18030-2000
  2. GB18030-2005

上一话题

Base128 字符集

下一话题

UTF8 字符集

快速搜索