Diskussion:Chinesische Zeichenkodierung

Letzter Kommentar: vor 8 Jahren von Wernfried in Abschnitt Kodierung einer Datei erkennen

Ich habe den Satz

Die Darstellung in der richtigen Schriftart muss daher durch andere Mechanismem gewährleistet werden, entweder durch explizite Angabe der Sprache im Markup, einer modernen Schrifttechnik wie OpenType oder einer direkten Angabe des Fonts.

einmal entfernt, da er meines Erachtens falsch ist. Die einzelnen Zeichen erhalten in Unicode alle eine eigene Kodierung, es sind keine weiteren Methoden notwendig um traditionelle und vereinfachte Zeichen zu unterscheiden, wie Schriftarten mit unterschiedlichen Zeichen unter gleicher Kodierung.

Beispiel aus Kurzzeichen

traditionell 龍 -> U+9F8D; vereinfacht 龙 -> U+9F99; Japan 竜 -> U+7ADC

oder

traditionell 畫 -> U+756B; vereinfacht 画 -> U+753B; Korea 畵 -> U+7575 NoBuddy 16:48, 16. Dez 2005 (CET)

Es gibt Zeichen mit verschiedenen Unicode-Codepoints, und solche die die gleichen zugewiesen bekommen haben (z.B. deutlich sichtbar bei U+76F4). Siehe die ausführlicheren englischen Artikel en:Han unification und en:Simplified Chinese character. --Pjacobi 22:12, 16. Dez 2005 (CET)
Der Satz erweckt aber den Eindruck, dass sowohl ein traditionelles als auch ein zugehöriges vereinfachtes Zeichen in Unicode den gleichen Codepoint bekommen haben und nur durch andere Methoden eine richtige Darstellung gewährleistet werden kann.
So ist es aber schließlich nicht. Die genaue Zahl der durch die Vereinfachung betroffenen Zeichen kenne ich nicht, aber zumindest Windows meint zu fast 2500 Zeichen im Bereich der CJK Unified Ideographs ein vereinfachtes Zeichen zu kennen, also bei über 10 Prozent.
Unterschiedliche Zeichen, die trotzdem gleich kodiert wurden, dürften daher eher die berühmte Ausnahme sein und auch weniger mit der chinesischen Vereinfachung als mit anderen nationalen Unterschieden zu tun haben. Sonst wäre GB18030 sicher anders eingeführt wurde, es enthält ja offensichtlich Unicode 3.2 komplett und damit dann auch die gleichen Probleme. --NoBuddy 00:50, 18. Dez 2005 (CET)

Tastatur-Handhabung Bearbeiten

Als Laie fände ich es wünschenswert, wenn an anschaulichen Beispielen in diesem Artikel (oder an anderer angebrachter Stelle) demonstriert würde, wie ein Chinese eine Computer-Tastatur bedient. Ich kann mir überhaupt nicht vorstellen wie angesichts der Vielzahl der Zeichen eine chinesische Tastatur aussieht. Gibt es eigentlich auch chinesische Schreibmaschinen? --Elneriensis 01:35, 2. Mai 2006 (CEST), Benutzername geändert: --Rüdiger Sander 09:35, 3. Mai 2006 (CEST)Beantworten

Na ja, vielleicht weniger Schreibmaschine als Druckmaschine à la Gutenberg. Mit dem Schreibarm holt man sich aus einem Kasten mit ein paar Tausend Typen die mit dem passenden Zeichen und drückt sie dann auf das Papier. Der Computer macht das etwas einfacher, man gibt Bopomofo, Pinyin, Kana oder Hangeul ein, das Eingabesystem wandelt es dann in das gewünschte Zeichen um. Mit der Eingabe von Silben klappt das auch auf lateinischen Tastaturen, z.B. liefert Windows ab 2000 so etwas schon mit. -- NoBuddy 22:11, 2. Mai 2006 (CEST)Beantworten

Siehe auch Eingabesysteme für die chinesische Schrift. -- Gerd Fahrenhorst 12:57, 18. Jul. 2007 (CEST)Beantworten

Kodierung einer Datei erkennen Bearbeiten

Das Problem unterschiedlicher Kodierungen gibt es ja nicht nur im Internet, sondern auch bei anderen Texten, etwa einfachen Textdateien für Notepad oder andere Texteditoren. Woran kann man dort die Codierung erkennen ? Für Unicode gibt es die Byte Order Mark, aber sonst ? Der Benutzer wird ja kaum alle möglichen Codierungen durchprobieren, bis er die passende findet, oder doch ? -- Gerd Fahrenhorst 13:05, 18. Jul. 2007 (CEST)Beantworten

Die Angabe "Oxim" unter Weblinks findet die Internetseite nicht. (nicht signierter Beitrag von 79.201.16.249 (Diskussion) 16:58, 25. Okt. 2015 (CET))Beantworten

Die Antwort ist einfach wie unbefriedigend: Es gibt keine Möglichkeit bei einfachen Texten die Kodierung zu erkennen. Das trifft auch für Unicode zu. Wenn du einen Text in UTF-8 kodierst und ein BOM verwendest, könnte es zumindest theoretisch auch ein Text in CP1252 sein. Es ist jedoch sehr unwahrscheinlich, dass die ersten drei Zeichen im Text zufällig "" sind aber es wäre ohne Weiteres möglich und erlaubt.
Gerade bei den Unicode Kodierungen gibt es viele Codepoints die kein gültiges Zeichen sind. Dementsprechend kann man diese Kodierung häufig ausschliessen. Die vielen 8-bit Kodierung haben aber meistens jeden Codepoint auch als ein Zeichen definiert, da gibt es ohne zusätzliche Vereinbarung (z.B ein Header wie bei XML oder html) keine Möglichkeit die Kodierung herauszufinden. Wenn dein Editor automatisch eine Kodierung auswählt, dann nur Aufgrund von Wahrscheinlichkeiten und pragmatischen Annahmen. Wernfried (Diskussion) 10:04, 11. Jan. 2016 (CET)Beantworten

Defekter Weblink Bearbeiten

GiftBot (Diskussion) 22:49, 2. Dez. 2015 (CET)Beantworten