中日韩统一表意文字-文章资讯

		设为首页
		加入收藏
		关于我们

当前位置：疑难字查询网(疑难汉字速查手册)_新华字典在线查字 >> 文章资讯 >> 浏览文章

中日韩统一表意文字!

时间: 2009年01月12日来源:互联网作者: 佚名浏览次数:

中日韩统一表意文字（英语：CJK Unified Ideographs），也称统汉字（Unihan），目的是要把分别来自中文、日文、韩文、越文中，本质相同、形状一样或稍异的表意文字（主要为汉字，但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字）于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划，所以亦有 CJKV （中日韩越统一表意文字）的称呼。Unicode亦开始收录越汉字——喃字。

版本

ISO 10646 版本 Unicode 版本新增置放平面字数累计字数

1993 1.0 中日韩统一表意文字基本多文种平面（BMP, Basic Multilingual Plane） 20,902 20,914

位于“相容表意文字区”中但实则独一的汉字（U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29）[1]
基本多文种平面 12

2000 3.0 中日韩统一表意文字扩展A区基本多文种平面 6,582 27,496

2001 3.1 中日韩统一表意文字扩展B区第二辅助平面（SIP, Supplementary Ideographic Plane） 42,711 70,207

2003第一修订版 4.1 HKSCS-2004 和 GB 18030-2000 中仍未加入 ISO 10646 的汉字（分别为 U+9FA6－U+9FB3, U+9FB4－U+9FBB）基本多文种平面 22 70,229

2003第四修订版 5.1 7个日语汉字（U+9FBC－U+9FC2），U+4039 拆分为 U+4039 和 U+9FC3 基本多文种平面 8 70,237

2003第五修订版[2]（预计） 5.2（预计）中日韩统一表意文字扩展C区第二辅助平面（预计） 4,149 74,388

历史
于1990年代初ISO 10646制订时，来自台湾的代表提出相同形式的中日韩汉字给以统一编码（Unify, ISO术语称为认同），可以大量节省编码空间，获其他代表接纳。

字源

最初期的统一汉字（20,902字）字源来自以下字集：

中国大陆的G源 G0：GB 2312-80：6,763字

G1：GB 12345-90：2,352字（含58个香港字和92个吏读字，不包括和GB 2312重复的字）
G3：GB 7589-87 繁体字：7,237字
G5：GB 7590-87 繁体字：7,039字
G7：现代汉语通用字表：642（G0, 1, 3, 5, 8未包括的字）
G8：GB 8565-89：290字（G0, 1, 3, 5未包括的字）

台湾的T源 T1：CNS 11643-1986 第一字面：5,401+9字（含9个计量用汉字）

T2：CNS 11643-1986 第二字面：7,650字
TE：CNS 11643-1986 第十四字面：6,319+239+10（含239个CCCII特字和10个XCCS特字

日本的J源

J0：JIS X 0208-90：6,335+1字
J1：JIS X 0212-90：5,801字

韩国的K源

K0：KS C 5601-87：4,888字（含268个重见字）
K1：KS C 5657-91：2,856字

以上的来源字集会实施字源分离原则。
另外还有：EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese等字集来源。

扩展A区

扩展A区包含有6,582个新的汉字，位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得：
中国大陆

GE：GB 16500-95
GS：新加坡汉字

台湾

T3：CNS 11643-1992 第三字面（原本为CNS 11643-1986第十四字面）新加入字符
T4：CNS 11643-1992 第四字面
T5：CNS 11643-1992 第五字面
T6：CNS 11643-1992 第六字面
T7：CNS 11643-1992 第七字面
TF：CNS 11643-1992 第十五字面

日本

JA： Unified Japanese IT Vendors Contemporary Ideographs, 1993

韩国

K2：PKS C 5700-1:1994
K3：PKS C 5700-2:1994

越南

V0：TCVN 5773:1993
V1：TCVN 6056:1995

扩展B区

扩展B区包含有42,711个新的汉字，位置在 U+20000—U+2A6D6。根据IRG N777号文件，这四万多个汉字分别从以下字典或字集中取得：

《康熙字典》中出现的18,486个未收录汉字（包括一个在补遗篇出现的汉字）；
《汉语大字典》中出现的28,914个未收录汉字；
《辞源》中出现的66个未收录汉字；
《辞海》中出现的247个未收录汉字；
《汉语大词典》中出现的553个未收录汉字；
《中国大百科全书》中出现的86个未收录汉字；
北大方正排版系统中出现的65个未收录汉字；
《四库全书》中出现的522个未收录汉字；
香港增补字符集中出现的1,081个未收录汉字；
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字；
韩国 PKS 5700-3:1998 中出现的166个未收录汉字；
北朝鲜 KPS 9566-97 和 KPS 10721-2000 国家标准所收录的5,642个汉字；
台湾 CNS 11643 的第4至7和15平面所收录的30,177个汉字；
越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃；

这堆汉字中重复的汉字有不少，所以经过整理之后，实际总数只有42,711个汉字。
另外，在 U+2F800—U+2FA1D 的位置，放了542个来自台湾的兼容汉字。

Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集（HKSCS）的所有汉字，而扩展C区又迟迟未能出笼，在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外，在 U+FA70—U+FAD9 的位置，放了106个来自北朝鲜的兼容汉字。

Unicode 5.1汉字
在2008年4月推出的 Unicode 5.1 版本，收录7个由日本 Adobe 公司递交的个日语汉字（U+9FBC－U+9FC2）[2]，和目字旁加㚒（大字加两个入字，就如陕西省的陝字换上目字旁）的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾（大字加两个人字）字的“䀹”(U+4039)，目字旁加㚒字的字，与“䀹”无论在意义和发音均不相同，故 Andrew West 和 John Jenkins 申请追加此字[3]。

扩展C区
按计划，中日韩统一表意文字扩展C区将收录4,149个汉字，包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中，位置在 U+2A6E0—U+2B734。根据IRG N1266号文件（另见 N3270），这四千多个汉字分别从以下字典或字集中取得：

中国大陆

《中国大百科全书》
北大方正排版系统
《汉语大字典》
《汉语大词典》
《古代汉语词典》
商务印书馆用字
《现代汉语词典》
《辞海》
《康熙字典》及补遗
中国测绘科学研究院用字
《汉语方言大辞典》
殷周金文集成引得

澳门

澳门资讯系统字集

台湾

CNS 11643-1992 第12字面
CNS 11643-1992 第13字面
CNS 11643-1992 第14字面

日本

日本国字集（Japanese KOKUJI Collection）

韩国

韩国 IRG 汉字集第5版（Korean IRG Hanja Character Set 5th Edition: 2001）

北朝鲜

KPS 10721:2003

越南

喃字词典（Từ điển chữ Nôm）, 阮光红（Nguyễn Quang Hồng), 2006
Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994

UTC来源

ABC Chinese-English Dictionary, John DeFrancis（德范克）, et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
耶稣基督后期圣徒教会香港分会用字
Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
宋本《广韵》
《中国鸟类系统检索》，郑作新等（2000），北京，科学出版社
段玉裁《说文解字注》

字源分离原则

字源分离原则（Source Separation Rule）是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异，如“户”字的第一笔，台湾作撇“戶”、香港及中国大陆作点“户”、日本作横“戸”，这种程度的差异，理想上是整并为一个字为佳。然而，从之前各种受挫之文字整并计划的经验得知，整合字集与现行通用字集（Big5或国标码）等无法一一对应，是推行整合字集的最大阻碍。
例如，日本的JIS标准同时收录了“剣”字与“劍”字，原本JIS文件里这两个字可以并存，但采用整合字集后反而变成同一个字，会造成使用上的困扰。而且，如果将多个不同地区字形合并会影响阅读者，令使用者不习惯并非以往所见字至；更有可能引致阅读者因习惯而书写不属于自己地区的字形（或地区性的异体字）、学习错误的字形。于是，字源分离原则因而诞生。
而在不同地区而有不同写法的部首，如“⻌（中）、⻍（港台旧字体）、辶（港台）”、“⺾（新字体）、卝䒑（旧字体）”、“⺥（中）、爫（港台）”等就会交由字体处理，例如使用依中国汉字标准《印刷通用汉字字形表》的字体下（如中易宋体、微软雅黑体）便会出现“⻌、⺥”；使用港台字体标准字体下（如微软正黑体，但非旧版细明体）就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。
字源分离原则是指，在上述所列出之各种字源里，若有任何字集同时收了两种以上的文字字形，则在Unicode中日韩统一表意文字中，也同时收录这些字。这样一来，现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求，就是能大幅减少Unicode收录汉字字数，同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字，而不对字形”编码之原则，亦遭受不少批评。

顶一下

回首页

【发表评论】【告诉好友】【打印此文】【收藏此文】【关闭窗口】

上一篇:汉语简介

下一篇文章:百个最常见别字由《咬文嚼字》整理

	我也说两句

	热门信息

	最新更新

关于疑难字查询网 | 站长信箱