The only languages that can comfortably be written with the repertoire of
US-ASCII happen to be Latin, Swahili, Hawaiian and American English without
most typographic frills. It is rumoured that there are more languages in the
world. — Roman Czyborra
Was ist UTF-8 eigentlich?
“Grundsätzlich arbeiten Computer nur mit Zahlen. Buchstaben und andere Zeichen werden daher Zahlen zugeordnet um sie zu speichern. Vor der Erfindung von Unicode gab es hunderte unterschiedlicher Kodierungssysteme. Keines dieser Kodierungssysteme umfasste je genug Zeichen: So braucht die Europäische Union allein mehrere Kodierungssysteme um damit den Bedarf für die Sprachen aller Mitgliedsländer abzudecken.
Diese Kodierungssysteme sind untereinander unverträglich, denn unterschiedliche Kodierungen können dieselbe Zahl für verschiedene Zeichen benutzen oder verschiedene Zahlen für dasselbe Zeichen.” (unicode.org 03/07)
UTF-8 ist also eine Kodierung für Unicode Zeichen. Es enthält nicht nur eine Handvoll Länderspezifischer Zeichen (wie z.B. ISO-8859), sondern enthält aufgrund seiner zu Grunde liegenden Technik fast alle verbreiteten Alphabete und Schriftzeichensysteme, nicht nur die Lateinischen Buchstaben und arabischen(Indischen) Ziffern, sondern unter anderem auch die arabische, chinesische, griechische, kyrillische, koreanische und die thailändische Schriftsysteme.
Was heißt das nun konkret?
Das heißt konkret ich könnte z.B. in einem internationalem Chat sowohl mit Japanern, Franzosen, Russen und Deutschen gleichzeitig chatten und kann alle feinheiten der Sprache ausnutzen(z.b. die deutschen Umlaute) und nicht nur das, ich kann genau diese auch sehen, wenn andere sie schreiben.
“Hilfe, wenn ich UTF-8 kodierte Nachrichten oder Emails erhalte sehe ich nur Müll!!”
Tja.. dies ist ein Phänomen das immer wieder bei Microsoft Windows Nutzern anzutreffen ist, der Grund dafür liegt darin, das die implementierung und unterstützung von UTF-8 in der Unix/Linux Welt schon sehr viel weiter ist als bei Windows.
Eines der größten Probleme liegt darin, das die einige der Marktführenden Programme wie z.B. Microsoft Outlook und Microsoft Outlook Express noch nicht fähig sind UTF-8 kodierte Nachrichten auf anhieb korrekt darzustellen(zumindest wird mir das immer wieder berichtet..). So ähnlich verhält es sich mit dem IRC-client mIRC, der bis zur Version 6.16 noch garkein UTF-8 unterstütze und selbst heute noch sehr bockig bei der konfiguration ist.
Was brauch ich denn nun für UTF-8?
- Erstmal eine Schriftart die UTF-8 kodierung unterstützt (z.B. Monospace)
- Anschließend muss das Programm, mit dem UTF-8 kodierte Nachrichten geschrieben werden sollen so umgestellt werden, das auch wirklich UTF-8 verwendet wird.I.d.R. muss/kann man das für jedes Programm einzelnd machen (Wie das konkret geht, ist am besten des Handbuchs des Programms zu entnehmen
)
[Aus Zeitmangel vorläufiges Ende des Artikels]
Intressante Links zum Thema: