关于编码
所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。和中文字库有关的常见编码有:大陆GB码、GBK码、港台BIG-5码等。下面简要介绍一下。
Unicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。
GB编码
GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是第一个中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。 GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。 1990年又制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集 第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有2200余个。
2000年由国家质量技术监督局和信息产业部联合发布中文信息处理技术方面的两项重要基础标准,分别是:强制性国家标准《信息技术
信息交换用汉字编码字符集 基本集的扩充》(GB18030-2000)和推荐性标准《信息技术
数字键盘汉字输入通用要求》(GB/T18031-2000)。
国家质量技术监督局宣布,从2000年1月1日起,所有拥有数字键盘的信息技术产品的研制开发和生产,若不执行GB18030强制性标准,将依照国家有关规定进行惩处。这次GB18030自发布之日开始实施,过渡期到2000年12月31日止。GB/T18031自2000年7月1日实施。GB18030收录了27484个汉字,总编码空间超过150万个码位,为彻底解决邮政、户政、金融、地理信息系统等迫切需要的人名、地名用字问题提供了解决方案,也为汉字研究、古籍整理等领域提供了统一的信息平面基础。GB/T18031适用于信息交流的通信产品(如固定和移动电话、传真机、双向传呼机等)、手持便携设备(如电子记事本、汉字学习机、电子汉字字典、掌上电脑等)、遥控操作类(电视遥控器、VCD遥控器、信息家电遥控器等),以及其它各种通用和专用设备(如鼠标键盘、信息家电专用键盘、信息存储装置等)。
微软2001年8月30日发布了GB18030 Support Package (简体中文版)for Windows 2000 。
GB18030
Support Package (简体中文版) |
GB18030在体系结构上延续GB2311-1990《信息处理 七位和八位编码字符集 代码扩充技术》体系,采用单/双/四字节混合编码。该标准与现有的绝大多数操作系统、中文平台在计算机内码一级兼容,能够支持现有的应用系统,在字汇上与GB13000.1-1993《信息技术 通用多八位编码字符集(UCS)第一部分: 体系结构与基本多文种平面》兼容,从而为中文信息在国际互联网上的传输与交换提供了保障。该标准同时收录了臧文、蒙文、维吾尔文等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。
GB18030-2000标准作为GB 2311体系的字符编码标准,规定了信息交换用的基本图形字符及其二进制编码的十六进制表示,适用于图形字符信息的处理、交换、存储、传输、显现、输入和输出。
GB18030-2000标准具体规定了图形字符的单字节编码和双字节编码,并对四字节编码体系结构做出了规定。
GBK编码(Chinese Internal Code Specification)
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。 Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。
BIG5编码
是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个、二级汉字7652个,共计13060个汉字。
方正748编码
所谓748编码,是指方正系统在长期应用过程中实施、制定的简、繁体字库编码方式,简体兼容GB2312且有所扩展,共7156字;繁体兼容GB12345并扩展全部BIG-5汉字,计14943字。此外,方正748编码还含有丰富的符号库。748编码仅用于方正软件和系统。