KOI8-R

kyrillischer Zeichensatz

KOI8-R aus der KOI8-Familie ist eine 8-Bit-Zeichenkodierung des kyrillischen Alphabets, wie es für die russische Sprache benutzt wird.

KOI8-R ist eine Übermenge von ASCII und enthält somit auch die 26 Buchstaben des lateinischen Alphabets. Die Kodierung kann auch für Bulgarisch benutzt werden, während für Ukrainisch eine verwandte Zeichenkodierung KOI8-U entworfen wurde, die vier zusätzlich erforderliche Codes enthält.

KOI8 ist die russische Abkürzung für „Kod Obmena Informazijei, 8 bit“ (Код Обмена Информацией, 8 бит), übersetzt „Code für Informationsaustausch, 8 Bit“.

KOI8-R ist beschrieben in RFC 1489[1] und ist IANA-registriert und für MIME zugelassen.

Die KOI8-Zeichenkodierungen sind so entworfen, dass die kyrillischen Buchstaben nicht in ihrer natürlichen alphabetischen Ordnung angeordnet sind, sondern in der alphabetischen Ordnung der lateinischen Buchstaben, die sich bei einer (groben) Transliteration ergeben. Damit ergibt sich die interessante Eigenschaft, dass beim Weglassen des höchstwertigen Bits kyrillischer Text als lateinische Transliteration (mit Mühe) lesbar bleibt. Dabei wurde die Zuordnung so gewählt, dass Groß- und Kleinbuchstaben vertauscht werden. Zum Beispiel wird aus Русский Текст bei Weglassen des MSB rUSSKIJ tEKST.

Diese Eigenschaft ist heute kaum mehr als eine historische Kuriosität, da es fast keine Übertragungswege mehr gibt, die nicht 8-bit clean sind, und weil andererseits die „automatische“ Transliteration einer echten Transliteration gegenüber minderwertig ist.

Alternativen zu KOI8 sind Windows-1251, ISO 8859-5 und Unicode.

Tabelle Bearbeiten

…0 …1 …2 …3 …4 …5 …6 …7 …8 …9 …A …B …C …D …E …F
0… nicht belegt
1…
2… SP ! " # $ % & ' ( ) * + , - . /
3… 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4… @ A B C D E F G H I J K L M N O
5… P Q R S T U V W X Y Z [ \ ] ^ _
6… ` a b c d e f g h i j k l m n o
7… p q r s t u v w x y z { | } ~
8…
9… NBSP ° ² · ÷
A… ё
B… Ё ©
C… ю а б ц д е ф г х и й к л м н о
D… п я р с т у ж в ь ы з ш э щ ч ъ
E… Ю А Б Ц Д Е Ф Г Х И Й К Л М Н О
F… П Я Р С Т У Ж В Ь Ы З Ш Э Щ Ч Ъ

Während gemäß RFC 1489[1] 95hex Unicode U+2219 (∙) sein soll, wird es wegen der Kompatibilität mit Codepage 1251 oft in U+2022 (•) umgesetzt.

Siehe auch Bearbeiten

Weblinks Bearbeiten

  • RFC 1489 – Registration of a Cyrillic Character Set. 1993 (englisch).

Einzelnachweise Bearbeiten

  1. a b RFC 1489 – Registration of a Cyrillic Character Set. 1993 (englisch).