Han-Vereinheitlichung

Mit dem Begriff Han-Vereinheitlichung (englisch Han unification) wird in der Informatik die Vereinheitlichung der chinesischen Hanzi, japanischen Kanji und koreanischen Hanja (CJK), seltener auch der vietnamesischen Chữ nôm, in einem Zeichensatz bezeichnet. Der Begriff wird meistens im Zusammenhang mit Unicode und der dort durchgeführten Han-Vereinheitlichung verwendet.

Beispiel für Han-Vereinheitlichung: das Ideogramm 次 in Kurzzeichen, Langzeichen, Kanji und Hanja (von links nach rechts)

Die Idee, die verschiedenen Han-Schriften in einen Zeichensatz zu vereinigen, ist nicht neu – schon 1980 existierte mit Chinese Character Code for Information Interchange (CCCII) ein Zeichensatz, der Kurzzeichen, Langzeichen und Kanji vereinigte. Diese Idee wurde auch bei der Entwicklung des Unicode-Standards verfolgt. Im Februar 1990 wurde eine eigens auf die Han-Vereinheitlichung spezialisierte Gruppe, das CJK-IRG, gegründet. Diese Gruppe wurde wenig später in IRG umbenannt.

Als China die Entwicklung eines neuen Zeichensatzes, GB 13000, bekanntgab, einigten sich Unicode und China darauf, den Han-Zeichensatz gemeinsam zu entwickeln.

Han-Vereinheitlichung in Unicode

Tabelle als Grafik

Für die Han-Vereinheitlichung in Unicode ist die Ideographic Rapporteur Group (IRG) zuständig, die alle Kodierungsvorschläge überprüft und Zeichen, die vereinigt werden können, ausfindig macht. Die Vereinheitlichung in Unicode erfolgt nach strengen Regeln:

Um die Umstellung von älteren Zeichensätzen auf Unicode einfacher zu machen, wurde für die 20.902 Zeichen der ersten Unicode-Version die source separation rule benutzt, die besagt, dass zwei Ideogramme, die in einem älteren Zeichensatz unterschieden werden, auch in Unicode unterschieden werden. Für später kodierte CJK-Ideogramme wird diese Regel nicht mehr benutzt.
Wenn Ideogramme von der historischen Bedeutung her nicht verwandt sind, werden sie ebenfalls nicht vereinigt. Dies trifft z. B. auf die Zeichen 土 (Erde) und 士 (Krieger) zu, welche zwar ähnlich aussehen, aber völlig verschiedene Bedeutung und Ursprung haben.

Anschließend werden die Ideogramme in ihre einzelnen Striche zerlegt. Danach werden die Anzahl und die Position der Striche, die Struktur, die Kodierung in einem älteren Zeichensatz sowie das Radikal der Zeichen bestimmt. Wenn alles übereinstimmt, werden die Zeichen vereinigt, sonst nicht.

Meistens werden Zeichen vereinfacht, wenn sie nur bei den verschiedenen Schreibstilen der chinesischen Schrift unterschiedlich aussehen. So wird beispielsweise das Radikal 辵 (als Radikal 辶) in der Druckschrift entweder mit einem oder mit zwei oberen Punkten geschrieben. In der Regelschrift und der Handschrift besitzt dieses Zeichen allerdings überall nur einen Punkt. Ähnlich ist es auch bei dem 示-Radikal, das zwar in der klassischen Druckschrift (Ming) noch wie ein 示 geschrieben wird, in der Hand- und Regelschrift allerdings 礻 geschrieben wird. Da nach den Schriftreformen in der Volksrepublik China und Japan versucht wurde, die Druckschrift an die Handschrift anzupassen, in Korea allerdings gar nicht und in Taiwan begrenzt, treten diese Unterschiede auf.

Die folgende Tabelle zeigt die unterschiedliche Darstellung eines Zeichens pro Zeile für verschiedene CJK-Schriften (Chinesisch ohne weitere Angabe für die Darstellung im Browser; chinesische Kurzzeichen wie in der Volksrepublik China, Singapur und Malaysia verwendet; chinesische Langzeichen wie in der Republik China (Taiwan), Hongkong und Macau verwendet; Japanisch; Koreanisch), die von den jeweiligen schriftspezifischen Eigenheiten herrührt. Diese können von der Strichreihenfolge, der Strichzahl oder der Richtung stammen. Zur ordentlichen Funktionsweise müssen dabei die entsprechenden Schriften installiert sein und der Browser die entsprechende richtig auswählen. Sollte das nicht der Fall sein, kann man sich alternativ die Grafik rechts ansehen.

Code	Chinesisch (Allgemein)	Chinesisch Kurzzeichen	Chinesisch Langzeichen	Japanisch	Koreanisch
U+4E0E	与	与	与	与	与
U+4ECA	今	今	今	今	今
U+4EE4	令	令	令	令	令
U+514D	免	免	免	免	免
U+5165	入	入	入	入	入
U+5168	全	全	全	全	全
U+5177	具	具	具	具	具
U+5203	刃	刃	刃	刃	刃
U+5316	化	化	化	化	化
U+5340	區	區	區	區	區
U+5916	外	外	外	外	外
U+60C5	情	情	情	情	情
U+624D	才	才	才	才	才
U+6B21	次	次	次	次	次
U+6D77	海	海	海	海	海
U+6F22	漢	漢	漢	漢	漢
U+753B	画	画	画	画	画
U+76F4	直	直	直	直	直
U+771F	真	真	真	真	真
U+7A7A	空	空	空	空	空
U+7D00	紀	紀	紀	紀	紀
U+8349	草	草	草	草	草
U+89D2	角	角	角	角	角
U+8ACB	請	請	請	請	請
U+9053	道	道	道	道	道
U+9913	餓	餓	餓	餓	餓
U+9AA8	骨	骨	骨	骨	骨

Andererseits wurden aber auch einzelnen Zeichenvariante separat in Unicode aufgenommen, was beispielhaft in folgender Tabelle dargestellt werden soll:

Code	Chinesisch (Allgemein)	Chinesisch Kurzzeichen	Chinesisch Langzeichen	Japanisch	Koreanisch
U+9AD8	高	高	高	高	高
U+9AD9	髙	髙	髙	髙	髙

U+7D05	紅	紅	紅	紅	紅
U+7EA2	红	红	红	红	红

U+4E1F	丟	丟	丟	丟	丟
U+4E22	丢	丢	丢	丢	丢

U+4E57	乗	乗	乗	乗	乗
U+4E58	乘	乘	乘	乘	乘

U+4FA3	侣	侣	侣	侣	侣
U+4FB6	侶	侶	侶	侶	侶

U+514C	兌	兌	兌	兌	兌
U+5151	兑	兑	兑	兑	兑

U+5167	內	內	內	內	內
U+5185	内	内	内	内	内

U+7522	產	產	產	產	產
U+7523	産	産	産	産	産

U+7A05	稅	稅	稅	稅	稅
U+7A0E	税	税	税	税	税

U+4E80	亀	亀	亀	亀	亀
U+9F9C	龜	龜	龜	龜	龜
U+9F9F	龟	龟	龟	龟	龟

U+5225	別	別	別	別	別
U+522B	别	别	别	别	别

U+4E21	両	両	両	両	両
U+4E24	两	两	两	两	两
U+5169	兩	兩	兩	兩	兩

Kritik

In Ostasien wird die Han-Vereinheitlichung hauptsächlich aus kulturellen, allerdings auch aus technischen Gründen kritisiert.

Historisch gab es im Chinesischen wie im Japanischen keine exakte Trennung zwischen Glyphe und Schriftzeichen. Beim Design von Unicode hatte das Konsortium die Wahl, entweder diese Differenzierung systematisch einzuführen oder aber vollständig darauf zu verzichten und jede Variation separat zu kodieren. Dies hätte für zahlreiche semantisch identische Zeichen zu zahlreichen Varianten geführt, insbesondere auch zu Varianten, die sich nicht eindeutig am Sprachraum (klassisches Chinesisch, vereinfachtes Chinesisch, Japanisch, Koreanisch), sondern nur historisch abgrenzen lassen.

Der heutige Unicode-Standard stellt einen Kompromiss dar. Auf eine vollständige Vereinheitlichung lediglich nach semantischen Kriterien wurde verzichtet. Dies hatte praktische Gründe. Es war erklärtes Ziel, dass sich modernes Chinesisch, Japanisch und Koreanisch im selben Text ohne Fontwechsel differenzieren lassen. Auch klassische Texte können in Unicode 3.1 semantisch eindeutig abgebildet werden. Lediglich die Darstellung historischer Variationen, die im linguistischen Kontext interessant sein können, ist in Unicode 3.1 nicht möglich.

Ein weiteres Problem war die fehlende Möglichkeit, in einem Text ohne Markup verschiedene Varianten eines Zeichens anzugeben. Besonders im Japanischen, wo einige Ortsbezeichnungen und Namen immer noch die alten Radikale benutzen, führt das zu Problemen. So wird beispielsweise das erste Zeichen des Ortsteils Gion 祇園 von Kyōto nicht mit 礻 geschrieben, sondern mit 示, obwohl andere Wörter mit 祇 mit dem 礻-Radikal geschrieben werden.

Unicode 3.2 adressierte dieses Problem mit Variantenselektoren. Standardisierte Varianten und historisch verwendete Formen und Zeichen wurden und werden beständig hinzugefügt, so im Unicodeblock Vereinheitlichte CJK-Ideogramme, Erweiterung A (Unicode 3.0), Unicodeblock Vereinheitlichte CJK-Ideogramme, Erweiterung B (Unicode 3.1), Unicodeblock Vereinheitlichte CJK-Ideogramme, Erweiterung C (Unicode 5.2), Unicodeblock Vereinheitlichte CJK-Ideogramme, Erweiterung D (Unicode 6.0), Unicodeblock Vereinheitlichte CJK-Ideogramme, Erweiterung E (Unicode 8.0) sowie Unicodeblock Vereinheitlichte CJK-Ideogramme, Erweiterung F (Unicode 10.0).

Weblinks

The Unicode Standard, Appendix E – Han Unification History – aktuelle Version, Unicode® 15.0.0, 13. September 2022. (PDF; 72 kB, englisch)
The Unicode Standard, Chapter 18 – East Asia – aktuelle Version, Unicode® 15.0.0. (PDF; 972 kB, englisch)
The secret life of Unicode. (Memento vom 25. Juni 2013 im Internet Archive) In: ibm.com (archiviert, englisch)
Otfried Cheong: Han Unification in Unicode (Memento vom 28. März 2010 im Internet Archive) In: tclab.kaist.ac.kr (archiviert, englisch)