汉字及其编码 - 微思作业本

问题描述：

汉字及其编码

1个回答分类：综合 2014-11-16

问题解答：

我来补答

所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”.字库的编码是字库组织的依据,也是文字处理的基础.不同国家和地区有不同的编码标准,和中文字库有关的常见编码有：单字节编码、GB2312-80、GB12345-90、GBK、U nicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码,下面简要介绍一下：单字节编码 MS Windows：Windows Latin 1（ANSI） MS-DOS：MS-DOS Latin US Macintosh：Macintosh Roman GB2312-80 全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码.P-Windows3.2和苹果OS就是以GB2312为基本汉字编码,Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312.双字节编码范围：A1A1~FEFE A1-A9：符号区,包含682个符号 B0-F7：汉字区,包含6763个汉字 GB码共收录6763个简体汉字、682个符号,其中汉字部分：一级字3755,以拼音排序,二级字3008,以偏旁排序.该标准的制定和应用为规范、推动中文信息化进程起了很大作用.GB12345-90 1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等.该标准共收录6866 个汉字（比GB2312多103个字,其它厂商的字库大多不包括这些字）,纯繁体的字大概有 2200余个.双字节编码范围：A1A1~FEFE A1-A9：符号区,增加竖排符号 B0-F9：汉字区,包含6866个汉字 Unicode编码(Universal Multiple Octet Coded Character Set) 国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码.1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2 达成协议,采用同一编码字集.目前Unicode是采用16位编码体系,其字符集内容与ISO1 0646的BMP（Basic Multilingual Plane）相同.Unicode于1992年6月通过DIS（Draf International Standard）,目前版本V2.0于1996公布,内容包含符号6811个,汉字209 02个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个.ISO10646 / Unicode字符集全球可以共享的编码字符集.UCS-4：组八位平面八位行八位字位八位 UCS-2：00组中的00平面是基本多文种平面（BMP）,4E00~9FFF 中日韩文字 Ext A（CJK）：3400~4DB7,共6584字 Ext B（CJK）：42,807个汉字,在第2平面的0100~A836 GBK编码(Chinese Internal Code Specification) GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准.GBK工作小组于1995年10月,同年12月完成GBK规范.该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库.Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的码表与底层字库联系.英文名：Chinese Internal Code Specification 中文名：汉字内码扩展规范1.0版双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容范围：8140~FEFE（剔除xx7F）共23940个码位包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字

展开全文阅读