• Font
  • Family
  • Foundry
  • Designer
  • Sample
  • Article
  • Help
Fontke.com>Article>Details

中日韩统一表意文字

Date:2007-01-23 07:42:59| Term|Browse: 681|Author:
  • Follow FontKe on Wechat to get Zcode
  • Scan the Qrcode to participate in the SVIP lottery
Introduction中日韩统一表意文字(英语:CJK Unified Ideographs),也称统汉字(Unihan),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃

中日韩统一表意文字(英语:CJK Unified Ideographs),也称统汉字(Unihan),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录越汉字——喃字。

版本

ISO 10646 版本

Unicode 版本

新增

置放平面

字数

累计字数

1993

1.0

中日韩统一表意文字

基本多文种平面(BMP, Basic Multilingual Plane)

20,902

20,914

位于“相容表意文字区”中但实则独一的汉字(U+FA0E, U+FA0F, U+FA11, U+FA13,

U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29)

基本多文种平面

12

2000

3.0

中日韩统一表意文字扩展A区

基本多文种平面

6,582

27,496

2001

3.1

中日韩统一表意文字扩展B区

第二辅助平面(SIP, Supplementary Ideographic Plane)

42,711

70,207

2003第一修订版

4.1

HKSCS-2004 和 GB 18030-2000 中仍未加入 ISO 10646 的汉字(分别为 U+9FA6-U+9FB3, U+9FB4-U+9FBB)

基本多文种平面

22

70,229

2003第四修订版

5.1

7个日语汉字(U+9FBC-U+9FC2),U+4039 拆分为 U+4039 和 U+9FC3

基本多文种平面

8

70,237

2003第五修订版[2](预计)

5.2(预计)

中日韩统一表意文字扩展C区

第二辅助平面(预计)

4,149

74,388

2个日语用汉字(U+9FC4-U+9FC5)(预计)

基本多文种平面(预计)

2

历史

于1990年代初ISO 10646制订时,来自台湾的代表提出相同形式的中日韩汉字给以统一编码(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。

最初期统一汉字

最初期的统一汉字(20,902字)字源来自以下字集:

  • 中国大陆的G源

    • G0:GB 2312-80:6,763字
    • G1:GB 12345-90:2,352字(含58个香港字和92个吏读字,不包括和GB 2312重复的字)
    • G3:GB 7589-87 繁体字:7,237字
    • G5:GB 7590-87 繁体字:7,039字
    • G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
    • G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
  • 台湾的T源

    • T1:CNS 11643-1986 第一字面:5,401+9字(含9个计量用汉字)
    • T2:CNS 11643-1986 第二字面:7,650字
    • TE:CNS 11643-1986 第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字
  • 日本的J源

    • J0:JIS X 0208-90:6,335+1字
    • J1:JIS X 0212-90:5,801字
  • 韩国的K源

    • K0:KS C 5601-87:4,888字(含268个重见字)
    • K1:KS C 5657-91:2,856字

以上的来源字集会实施字源分离原则。

另外还有:EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese等字集来源。

扩展A区

扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得:

  • 中国大陆

    • GE:GB 16500-95
    • GS:新加坡汉字
  • 台湾

    • T3:CNS 11643-1992 第三字面(原本为CNS 11643-1986第十四字面)新加入字符
    • T4:CNS 11643-1992 第四字面
    • T5:CNS 11643-1992 第五字面
    • T6:CNS 11643-1992 第六字面
    • T7:CNS 11643-1992 第七字面
    • TF:CNS 11643-1992 第十五字面
  • 日本

    • JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
  • 韩国

    • K2:PKS C 5700-1:1994
    • K3:PKS C 5700-2:1994
  • 越南

    • V0:TCVN 5773:1993
    • V1:TCVN 6056:1995

扩展B区

扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

  • 《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现的汉字);
  • 《汉语大字典》中出现的28,914个未收录汉字;
  • 《辞源》中出现的66个未收录汉字;
  • 《辞海》中出现的247个未收录汉字;
  • 《汉语大词典》中出现的553个未收录汉字;
  • 《中国大百科全书》中出现的86个未收录汉字;
  • 北大方正排版系统中出现的65个未收录汉字;
  • 《四库全书》中出现的522个未收录汉字;
  • 香港增补字符集中出现的1,081个未收录汉字;
  • 日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
  • 韩国 PKS 5700-3:1998 中出现的166个未收录汉字;
  • 北朝鲜 KPS 9566-97 和 KPS 10721-2000 国家标准所收录的5,642个汉字;
  • 台湾 CNS 11643 的第4至7和15平面所收录的30,177个汉字;
  • 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃;

这堆汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。

另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。

Unicode 4.1汉字

为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。

Unicode 5.1汉字

在2008年4月推出的 Unicode 5.1 版本,收录7个由日本 Adobe 公司递交的个日语汉字(U+9FBC-U+9FC2),和目字旁加㚒(大字加两个字,就如陕西省的陝字换上目字旁)的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾(大字加两个字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论在意义和发音均不相同,故 Andrew West 和 John Jenkins 申请追加此字。

扩展C区

按计划,中日韩统一表意文字扩展C区将收录4,149个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B734。根据IRG N1266号文件(另见 N3270),这四千多个汉字分别从以下字典或字集中取得:

  • 中国大陆

    • 《中国大百科全书》
    • 北大方正排版系统
    • 《汉语大字典》
    • 《汉语大词典》
    • 《古代汉语词典》
    • 商务印书馆用字
    • 《现代汉语词典》
    • 《辞海》
    • 《康熙字典》及补遗
    • 中国测绘科学研究院用字
    • 《汉语方言大辞典》
    • 殷周金文集成引得
  • 澳门

    • 澳门资讯系统字集
  • 台湾

    • CNS 11643-1992 第12字面
    • CNS 11643-1992 第13字面
    • CNS 11643-1992 第14字面
  • 日本

    • 日本国字集(Japanese KOKUJI Collection)
  • 韩国

    • 韩国 IRG 汉字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)
  • 北朝鲜

    • KPS 10721:2003
  • 越南

    • 喃字词典(Từ điển chữ Nôm), 阮光红(Nguyễn Quang Hồng), 2006
    • Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
    • Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
  • UTC来源

    • ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
    • 耶稣基督后期圣徒教会香港分会用字
    • Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
    • 宋本《广韵》
    • 《中国鸟类系统检索》,郑作新等(2000),北京,科学出版社
    • 段玉裁《说文解字注》

字源分离原则

字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。

由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇“戶”、香港及中国大陆作点“户”、日本作横“戸”,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。

例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。而且,如果将多个不同地区字形合并会影响阅读者,令使用者不习惯并非以往所见字至;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)、学习错误的字形。于是,字源分离原则因而诞生。

而在不同地区而有不同写法的部首,如“⻌(中)、⻍(港台旧字体)、辶(港台)”、“⺾(新字体)、卝䒑(旧字体)”、“⺥(中)、爫(港台)”等就会交由字体处理,例如使用依中国汉字标准《印刷通用汉字字形表》的字体下(如中易宋体、微软雅黑体)便会出现“⻌、⺥”;使用港台字体标准字体下(如微软正黑体,但非旧版细明体)就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。

字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。

由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。

已统一的汉字

原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是读者电脑提供的字型,未必代表该地区的标准写法)。

例子:

Unicode

中文

日文

韓文

中國大陸

台灣

香港

U+6D2A

U+6F22

U+76F4

U+7A97

U+89D2

U+8D77

U+9AA8

注:不是所有浏览器均可分辨“中文-香港”(zh-hk)此一HTML的语言代码(Language Code)并使用不同的字形。如非某一地区的使用者看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设定两者以同一种字形显示。

截至2007年7月,只有Internet Explorer 7能够完整正确地支持此标记,而Internet Explorer 6和Mozilla Firefox也能同样完整支持,但表现不同(部分中文标记被当作日文)。Opera仅部分支持。具体情况请参考Test results: Automatic font assignment for CJK text。

没有统一的汉字

有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“Unicode联盟决定把不正统的编入位于基本多文种平面的‘相容表意文字区’(Compatibility Ideographs)”时起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“相容表意文字补充区”(Compatibility Ideographs Supplement)中。

以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。

0
  • Follow FontKe on Wechat to get Zcode
  • Scan the Qrcode to participate in the SVIP lottery
Relevant font designer
Relevant font foundry
中日韩统一表意文字 Comments
Guest Please obey the rules of this website. Unclear?
中日韩统一表意文字 Latest comments
No relevant comments
Recommended comments