Zeichenverarbeitung in Windows: Paneuropäischer Schriftraum
1. Problemstellung: Zeichensätze mit Diakritika
2. Lateinisches Schriftsystem
3. Zeichensatz-Grundlagen
4. Eingabe von Sonderbuchstaben Diese Abhandlung soll das Umfeld der Textverarbeitung im paneuropäischen Schriftraum durchleuchten und Tipps bez. Erfassung und Speicherung von Texten zusammenstellen. Dabei geht es hauptsächlich um die nicht über die Tastatur direkt erreichbaren Sonderbuchstaben mit Diakritika; hier eine Auswahl (siehe auch https://de.wikipedia.org/wiki/Diakritisches_Zeichen): à á â ä å ã ă æ ą ć č ç ď đ è é ê ë ĕ ę ğ ì í î ï ı ľ ł ń ň ñ ö ò ó ô õ ő œ ø ŕ ř ś š ş ș ť ț ù ú û ü ű ů ý ÿ ź ż ž . Wenn Sie nur nach einer schnellen Eingabemöglichkeit für solche Zeichen suchen und auf die Hintergrundinformationen verzichten können, sollten Sie die zusätzliche Bildschirmtastatur aktivieren oder die MS-PowerToys installieren, wie in 4.6 Virtuelle PC-Tastaturen / PowerToys beschrieben ist. Wenn Sie auf der Tastatur eine Zeichenkette ("Text") eintippen, dann sendet die Tastatur eine entsprechende Scancode-Kette an den Tastaturtreiber im PC und der reicht die zugehörigen Zeichencodes weiter an die Anwendung. Dabei kommt es darauf an, welche Codepage in Windows aktiv ist, denn dort steht, welche Buchstaben oder welche Sonderzeichen aufgrund der übermittelten Zeichecodes gemeint sein sollen. Und es kommt auf den Schriftsatz an, denn da steht, wie die Glyphen der einzelnen Zeichen ausgeformt sein sollen. Diese Zeichenkette/Text wird dann i.d.R. auf den Bildschirm gespiegelt und/oder an den Drucker gesendet; dabei sind wieder spezielle Übertragungscodes im Spiel. Aber vor allem, wenn der Text gespeichert werden soll, kommt ein spezieller Speicher-Code ins Spiel; die Textdatei besteht u.a. aus dessen Codezahlen/Codepoints. Diese Codepoints sind in Codepages aufgelistet. In Windows sind standardmäßig drei Codepages/Zeichensätze verfügbar, jeder mit einem anderen Zeichenvorrat! Der wichtigste ist der 8-Bit-ANSI-Zeichensatz CP 1252 (auch: Windows Westlich / Windows 1252). Der ist ggf. für andere Ländergruppen austauschbar (CP 1250 - CP 1258). Für die meisten Windows-Zeicheneingaben wird auch der alte 8-Bit-Zeichensatz CP 850/858 (MS-DOS-Latin) verwendet und angeblich kommt sogar der ganz alte CP 437 (IBM-PC) noch im DOS-Fenster cmd.exe zum Einsatz. Aber intern arbeitet Windows immer mit dem 16-Bit-Zeichensatz CP 65001 (Unicode). Viele Zeichen sind auf jeder Codepage anders codiert. Wann also greift welche? Und in Windows sind standardmäßig über 20 Schriftsätze/Schriftarten/fonts installiert. Zu fast allen Codepoints in einer Codepage gibt es in jeder Schriftart eine passende Glyphe/Buchstabenausformung, aber eben nicht zu jedem. Angesichts des "Euro-Zahlungsverkehrsraumes" reicht ein 8-Bit-Zeichensatz aber selbst in (West-)Europa für offizielle Dokumente eigentlich nicht mehr aus, zumal dort neben einigen nichtdruckbaren Steuerzeichen auch viele Nichtbuchstaben, wie Satzzeichen, Währungszeichen usw. enthalten sind. So bieten ANSI-Zeichensätze trotz ihrer jeweils 256 Zeichen "nur" ca. 120 Buchstaben. Aber davon sind auf einer deutschen QWERTZ-Tastatur nur 29 + 29 Buchstaben direkt über Tasten erreichbar und über Tot-Tasten einige wenige weitere mit Diakritika (s.w.u.). Aber schon das französische ç und das spanische ñ sind so nicht erreichbar. Und z.B. Łódź, Tomáš, Nový Špičák oder Křišťanov sind auch nicht richtig erfassbar/darstellbar. Im englischen Alphabet sind nur die 26 Grundbuchstaben (genauer 26 Groß- + 26 Kleinbuchstaben) vorhanden. Dort gibt es somit keinerlei Sonderbuchstaben, es entspricht also dem Lateinischen Alphabet der Renaissance. Dieses bildet die Grundlage des Lateinischen Schriftsystems (s.w.u.). Andere Alphabete des Lateinischen Schriftsystems kennen neben den Grundbuchstaben solche mit diakritischen Zeichen, ferner Ligaturen, Digraphe und echte Sonderformen. So gibt es im Deutschen die Umlaute Ää Öö Üü und das Eszett ẞß, sowie in Eigennamen/Fremdwörtern das ë (= e mit Trema als Kennzeichen einer Diärese); vgl.z.B. Piëch (Eigenname) mit Pietät (Fremdwort), jeweils gesprochen als i-e, mit piesacken, gesprochen als i-i. Somit gibt es im Deutschen 26+4 Großbuchstaben (ë nicht mitgezählt); z.B. im Französischen sind es sogar 26+16. Um der Vielfalt gerecht zu werden, kommt im deutschen Personenstandsrecht seit 2012 der spezielle Zeichensatz string.latin zum Einsatz. Der umfasst derzeit über 400 Glyphen (Buchstaben); er soll sogar auf 600 Glyphen ausgebaut werden. Mittels string.latin können die deutschen Meldebehörden europäische Namen auf Ausweisen und Pässen eigentlich richtig schreiben. Aber es gibt zwei Einschränkungen, die Längenbegrenzung auf dem scheckkartenkleinen Kärtchen und die Grenzkontrollnotwendigkeiten im internationalen Austausch. Im Personalausweis werden im "Klartextfeld" auf der Vorderseite Name und Vornamen so geschrieben, wie es aus der (nationalen) Geburtsurkunde ersichtlich ist, aber nur in einer Zeile für den Zunamen und einer für die Vornamen, jeweils ca. 28 Zeichen lang. In der (u.a. für den Grenzverkehr) maschinenlesbaren Zone auf der Rückseite ist für Zu- und Vornamen zusammen sogar nur Platz für 30 Zeichen und dort wird der Schriftsatz OCR B verwendet, der nur das englische Alphabet umfasst. So müssen im Personalausweis also ggf. zweierlei Namen aufgeführt werden! Ganz nebenbei: Aufgrund der Längenbegrenzung dürfte die für "Karl-Theodor Maria Nikolaus Johann Jacob Philipp Franz Joseph Sylvester Buhl-Freiherr von und zu Guttenberg" zuständige Passbehörde Personalausweisprobleme haben; für ihn müsste wohl das Feld Ordens- und Künstlernamen herhalten müssen mit "Karl-Theodor von und zu Guttenberg". Man unterscheidet phonographische, piktographische und logographische Schriften oder Buchstabenschriften, Silbenschriften und Wortschriften oder … (siehe https://de.wikipedia.org/wiki/Schrift). Das lateinische Schriftsystem ist das am weitesten verbreitete Schriftsystem der Welt: Alphabete von über 60 Ländern leiten sich mit Anpassungen davon ab (auch z.B. Vietnamesisch; s.u.) und werden als lateinische Alphabete oder Lateinschriften bezeichnet. Neben den 26 lateinischen Grundformen/Grundbuchstaben umfasst das lateinische Schriftsystem über 90 weitere Sonderbuchstaben, jeweils mit Groß- und Kleinschreibung (also weitaus mehr als im Vorspann aufgeführt!). Die einzelnen Buchstaben dieses Buchstabensystems stellen die Phoneme der jeweiligen Sprache dar, wobei derselbe Buchstabe in verschiedenen Sprachen auch verschiedene Phoneme repräsentieren kann und in einer Sprache ein Buchstabe mit unterschiedlichen Diakritika auch unterschiedlich ausgesprochen wird. Siehe auch https://de.wikipedia.org/wiki/Lateinisches_Schriftsystem. Die Sonderbuchstaben gliedern sich in Grundbuchstaben mit diakritischen Zeichen (ä ç č é è ê ö ü ữ …), Ligaturen (æ œ …), Digraphe (ij nj dz …) und Sonderformen (ð þ ß …), wobei das deutsche ß eigentlich auch eine Ligatur ist, was auch der Name Eszett widerspiegelt. Siehe hierzu auch https://www.typolexikon.de/eszett-scharfes-s/. Die diakritischen Zeichen sind kombinierende Zeichen, das Ergebnis derartiger Kombinationen sind kombinierte Zeichen.
Schöne Beispiele für den Gebrauch von Diakritika sind: Bernd Kappenberg hat 2006 in "Der Gebrauch europäischer lateinischer Sonderzeichen in der deutschen Öffentlichkeit" in Kapitel 2 eine komplette Zusammenstellung des paneuropäischen lateinischen Zeichensatzes (also ohne Griechisch und Kyrillisch) geliefert; Details siehe http://www.mediensprache.net/networx/networx-49.pdf. Er kommt auf 361 Buchstabenglyphen zuzüglich der Ziffern, Satzzeichen und einiger math. Zeichen usw. Siehe auch https://de.wikipedia.org/wiki/Liste_lateinischer_Alphabete. Die Buchstaben sind immer in einer Reihenfolge angeordnet (durchnummeriert), was als Regel zum Sortieren benutzt wird. Aber leider werden die Sonderformen in jedem Alphabet unterschiedlich eingeordnet. So ist z.B. das Ö im Schwedischen immer als letzter Buchstabe im Alphabet einsortiert, aber im Deutschen hinter O (also hinter Oz) oder in Lexika gleichwertig zu O oder in Telefonbüchern gleichwertig zu OE. Im professionellen Buchdruck wird jeder vorkommende Buchstabe, jedes Satzzeichen und jeder Leerraum als einzelne Letter "geschnitten" oder im Bleisatz gegossen. Dabei gibt es aus ästhetischen und technischen Gründen Ligaturen, z.B. neben den Lettern f und l auch die Ligatur fl als eine Letter. fl ist aber im Deutschen kein Buchstabe des Alphabets (hat also keine eigene Platznummer), wird daher als f l sortiert, im Gegensatz zu z.B. œ im französischen Alphabet, das dort ein Buchstabe mit Platznummer ist. "Das Zeichen (engl. character) ist die abstrakte Idee eines Schriftzeichens, die Glyphe ist dessen konkrete grafische Darstellung. Elektronische Texte wie dieser hier werden als abstrakte Zeichen gespeichert, und ihre Erscheinungsform hängt von der jeweils gewählten Schriftart ab. Im einfachsten Fall existiert zu jedem sichtbaren Schriftzeichen […] in einer bestimmten Schriftart (Schriftbild und Größe) eine einzelne Glyphe." Zitiert aus https://de.wikipedia.org/wiki/Glyphe. "Unter einem Zeichensatz versteht man einen Vorrat an Elementen, Zeichen genannt, aus denen sich Zeichenketten zusammenstellen lassen. Solche Elemente können unter anderem die Buchstaben eines Alphabetes, Ziffern, aber auch andere Symbole sein, etwa die Sonderzeichen, […] oder Steuerzeichen. Ein Zeichensatz ist weniger als ein Zeichencode, der zusätzlich noch eine definierte Nummerierung der Zeichen des Zeichensatzes enthalten muss. […]." Zitiert aus https://de.wikipedia.org/wiki/Zeichensatz. Grundlage für Zeichensätze sind logischerweise Alphabete, die in Code-Tabellen (Zeichecodes) angeordnet sind. Z.B. bei Unicode bestehen die Tabellen aus den Buchstaben samt einer Anordnung/Nummerierung und einer Beschreibung über die Buchstaben-Ausformung und -Rubrizierung. Das nebenstehende Beispiel ist LATEINISCHE ZEICHEN IN UNICODE entnommen. Derartige Tabellen sind immer "durchnummeriert", bedingt durch den Zeilenaufbau, den jeweiligen "Platz" in der Tabelle. Da diese Tabellen aber meist Auszüge umfangreicherer Tabellen sind, muss neben der "Platznummer" die eigentliche Zeichennummer, der Codepoint, benannt sein (meist hexadezimal). Da das in diesen Tabellen jeweils ausgedruckte Zeichen (die Glyphe) aber wiederum einen Zeichensatz für diese Darstellung benötigt, muss die grundsätzliche Ausformung in normierter Weise beschrieben/umschrieben werden (Spalte Name). Typographisch benötigt man zusätzlich zur Code-Tabelle noch Angaben über die Schriftart, wie Arial (ohne Serifen) oder Times New Roman (mit Serifen) und den Schriftschnitt, wie aufrecht/normal oder kursiv oder fett und die Schriftgröße, wie 12 pp oder 15 pt. Im obigen Tabellenausschnitt ist zu erkennen, dass die Buchstaben anhand ihrer Codepoints lückenlos angeordnet sind, aber es gibt viel mehr aus dem lateinischen Alphabet abgeleitete Buchtaben, als die hier aufgeführten. Am Beispiel der 12 Sonderbuchstaben im Tabellenausschnitt, die zu den 5 Grundbuchstaben a - e gehören, sei das gezeigt: à á â ä å ã ă æ ą ć č ç ď đ è é ê ë ĕ ę . Hier kommen schon 20 Sonderbuchstaben zusammen; insgesamt sind es wohl mindestens 36. Folglich sind in der Codetabelle etliche Buchstaben weit verstreut. Daher ist man zur Eingabe von Sonderbuchstaben auf "Hilfsmittel" angewiesen.
4.1 Schreibmaschine
4.2 Buchdruck
4.3 Hardware-PC-Tastaturen
4.4 Zeichentabellen charmap.exe
4.5 Zeichentabelle Symbol
Wenn Sie nur nach einer schnellen Eingabemöglichkeit suchen und auf die Hintergrundinformationen verzichten können, sollten Sie die zusätzliche Bildschirmtastatur aktivieren oder die MS-PowerToys installieren, wie in 4.6 Virtuelle PC-Tastaturen beschrieben ist. Wenn man auf einer normalen Schreibmaschine der Reihe nach ´ ` e getippt hat, dann ist der Wagen bei ´ und ` stehengeblieben und hat sich erst nach e weiter bewegt, womit ein ê geschrieben war. Die Akzenttasten sind sogenannte Tot-Tasten und das ê ist dann ein kombinierter Buchstabe. Auf alten Schreibmaschinen gab es nur ´ und ` und dadurch indirekt auch ^. Dafür konnte man jedem Buchstaben einen Akzent verpassen und so auch unsinnige kombinierte Buchstaben erzeugen. Im Buchdruck (mit Bleisatz) kann es keine kombinierten Buchstaben geben (also soche, die der Reihen nach aus Grundbuchstaben und ggf. mehreren zusätzlichen kombinierenden Zeichen zusammengesetzt sind), sondern nur "ganz viele" vollständige Lettern, die aus Setzkästen herausgesucht werden und zu Zeichenketten zusammen gesetzt werden müssen.
QWERTZ-Tastaturen
MS-Word: Tastenkombinationen
MS-Word / WordPad / Notepad: dreistellige Alt-Nummern Das Arbeiten mit Tot-Tasten wurde (teilweise) auf Computertastaturen übertragen, dort teilweise sogar erweitert. Die Einsatzbreite hängt aber stark vom jeweiligen Tastaturtreiber und noch stärker von der verwendeten Schreibsoftware und der verwendeten Schriftart ab. Auf deutschen QWERTZ-Tastaturen wirken meist nur ´ ` ^ als Tot-Tasten, bewirken also keinen Zeichenvorschub. Sie arbeiten mit den Vokalen samt y und liefern somit á à â é è ê í ì î ó ò ô ú ù û ý ; aber z.B. im Französischen werden à â æ ç è é ê ë î ï ô œ ù û ü ÿ benötigt. Andere eigentlich geeignete Zeichen ° ' " ~ , ; . : / - scheiden aus, weil sie für normalen Schreibfluss einen Zeichenvorschub erzeugen müssen. Erst speziell dafür programmierte Editoren können sie und andere Zeichen ausnützen, dann aber auf z.T. abenteuerliche Weise. So soll in Word z.B. "STRG + ALT + UMSCHALT + ?" das führende spanische Fragezeichen ¿ ergeben, also sind vier Tasten gleichzeitig zu drücken (und das klappt tatsächlich, wenn man dazu die Finger "richtig" einteilt!). Besonders "ulkig" wirkt die "ALT GR"-Taste (alternate graphic), sie liefert auf allen Tastaturen die dort meist auf den Tastenkappen aufgeführten dritten Zeichenbelegungen ² ³ { [ ] } \ @ € ~ | µ . Aber in Word werden die vier weiteren Zeichen ® ™ © und … generiert und in praktisch allen Editoren/Schreibprogrammen werden durch manche Tasten spezielle Programmfunktionen ausgelöst!
Siehe auch Auf einigen ausländischen Tastaturen gibt es eine spezielle Combine-Taste, mit der kombinierte Zeichen eingebbar sind.
Vorbemerkungen / Schreibkonventionen in diesem Text:
In MS-Word gibt es für Vielschreiber raffinierte Tastenkombinationen für Tot-Tasten; dort liefert z.B.
strg + & , A
den Buchstaben Æ oder
strg + , , C
den Buchstaben Ç oder
strg + : , e
den Buchstaben ë. Die einzelnen Tot-Tasten und Tastenkombinationen sind in https://support.office.com/de-de/article/tastenkombinationen-für-internationale-zeichen aufgelistet; aber leider wirken die nicht auf allen PCs so, wie MS das beschreibt. Und leider sind die Word-Tastenkombinationen im Vergleich gesehen teils unlogisch, wohl weil historisch gewachsen.
Es lohnt sich also nicht, diese Tastenkombinationen auswendig zu lernen. Es gibt schlichtere Wege zum Ziel, wie die folgenden Abschnitte zeigen werden. Neben diesen Tricks mit Tastenkombinationen für Word gibt es für MS-Editoren noch drei weitere Methoden der Sonderzeicheneingabe. Aus historischen Gründen bedient sich jede einer anderen Codepage, mit der Folge, dass derselbe Code je nach Eingabemethode u.U. drei unterschiedliche Ergebnisse produziert: MS-Word / WordPad / Notepad: dreistellige Alt-Nummern (dezimal) Auf Tastaturen mit Nummernblock (also nicht Notebooks!) können Sie bei gedrücktem alt im Nummernblock maximal dreistellige Zahlen ohne führende Nullen eintippen. So erzeugt z.B. alt + 1 , 5 , 6 das Zeichen £ und alt + 9 , 9 , 9 das Zeichen ϧ (Word, Wordpad) oder þ (Notepad). Das Zeichen £ stellt das "pound sign" dar (Unicode 00A3), das Zeichen ϧ den "coptic small letter khei" (Unicode 03E7) und das Zeichen þ den "latin small letter thorn", isländisch, (Unicode 00FE). Unicode verwendet offensichtlich hexadezimale Zahlen. Laut MS werden die dreistelligen ALT-Nummern als ANSI-Codes interpretiert, sollen also die Zeichen der 8-Bit-ANSI-Codepage erzeugen. Dann müsste alt + 1 , 6 , 9 das Zeichen © ergeben, aber das ergibt ® und das ist die "alte" Codepage MS-DOS-Latin CP 850.
Daher erzeugen alt + 1 bis alt + 3 , 1 die Zeichen ☺ ☻ ♥ ♦ ♣ ♠ • ◘ ○ ◙ ♂ ♀ ♪ ♫ ☼ ► ◄ ↕ ‼ ¶ § ▬ ↨ ↑ ↓ → ← ∟ ↔ ▲ ▼, Die 8-Bit-Codepage 850 umfasst bekanntlich nur die 256 Codepoints 0 … 255. Gibt man eine größere dreistellige Alt-Nummern ein, erhält man je nach Programm unterschiedliche Ergebnisse: So liefern in Notepad/Editor z.B. die Alt-Nummern 100, 356, 612 und 868 das gleiche Ergebnis, nämlich d (Codepoint 100), weil 100+256=356, 100+2×256=612 und 100+3×256=868 gilt; also geht es hier jeweils nach Vielfachen von 256 wieder von vorne los (modulo 256); hier wird somit nur die Codepage CP 850 verwendet. Anders bei Word und WordPad. Hier liefern beide jeweils: 100 = d, 356 = Ť, 612 = ɤ und 868 = ͤ , wobei letztere beiden in Word das kombinierte Zeichen ɤͤ liefern, nicht aber in WordPad, dort gelingt die Kombination nur "halb": ɤ ͤ. d ist der "latin small letter D" (Unicode 0064, dez 100), Ť ist der "latin capital letter T with Caron" (Unicode 0164, dez 356), ɤ ist der "latin small letter rams horn" (Unicode 0264, dez 612) und ͤ ist der "combining latin small letter E" (Unicode 0364, dez 868). Beide Programme verwenden "unten" CP 850/858 und setzen "oben", also ab Codepoint 256, "nahtlos" mit Unicode fort. Nun wird auch klar, warum die Alt-Nummer 999 die beiden Ergebnisse þ (Notepad) und ϧ (Word, WordPad) liefert. MS-Word / WordPad / Notepad: vierstellige Alt-Nummern (dezimal) Auf Tastaturen mit Nummernblock (also nicht Notebooks!) können Sie bei gedrücktem alt im Nummernblock genau vierstellige Zahlen ggf. mit führenden Nullen eintippen. So erzeugt z.B. alt + 0 , 1 , 5 , 6 das Zeichen œ und alt + 0 , 9 , 9 , 9 das Zeichen ϧ (Word, WordPad) oder ç (Notepad). Das Zeichen œ stellt die "latin small ligature Oe" dar (Unicode 0153), das Zeichen ϧ den "coptic small letter khei" (Unicode 03E7) und das Zeichen ç den "latin small letter C with cedilla" (Unicode 00E7).
Also Unterschied hexadezimal - dezimal schön verwirrend und schön zu sehen: z.B. œ = Unicode 0153 (hex) = alt 156 (dez), aber 156dez = 009Chex und 153hex = 339dez Hier bedienen sich alle drei Programme der 8-Bit-Codepage CP 1252, Word und WordPad ergänzen "oben" mit Unicode, aber Notepad arbeitet wieder ausschließlich mit CP 1252, also "modulo 256". alt + 0 , 0 , 0 ,1 bis alt + 0 , 0 , 3 , 1 erzeugen keine druckbaren Zeichen mehr, sondern Steuerzeichen ohne Glyphe, wie z.B. Rückschritt, Zeilenende, Zeilenvorschub, Seitenvorschub, weil die ANSI-Codepage CP 1252 die Codepoints 0…31 mit den ursprünglichen Bedeutungen aus ASCII-Zeiten belegt. Das größte über den Nummernblock eingebbare Zeichen alt + 9 , 9 , 9 ,9 ergibt in Word und WordPad das Symbol ✏ "pencil" (Unicode 270F, dez 9999) und in Notepad das Sybol ☼ (Unicode 263C {= dez. 9788}, dez 15 {9999 = 39×256+15}). MS-Word: Unicode (hexadezimal) Wenn Sie in Word entweder über die Haupttastatur oder den Nummernblock genau vierstellige Hex-Zahlen ggf. mit führenden Nullen eintippen und direkt anschließend alt + c tippen, rufen Sie Unicodezeichen ab. So erzeugt z.B. 0 , 1 , 5 , 6 , alt + c das Zeichen Ŗ ("latin letter R with cedilla", Unicode 0156, dez. 342) und 0 , 9 , 9 , 9 , alt + c das Zeichen ঙ ("bengali letter nga", Unicode 0999, dez. 2457).
9 , 9 , 9 , 9 , alt + c erzeugt 香 und stellt "CJK Unified Ideograph-9999" (Unicode 9999, dez. 39321) in der Schrift "Han-Chinesisch (Hani)" dar. 0 , 0 , 0 ,1 , alt + c bis 0 , 0 , 1 , 6 , alt + c erzeugen keine druckbaren Zeichen.
Der komplette Unicode ist in https://unicode-table.com/de/ aufrufbar. Dort sind die derzeit 917.999 definierten Codepoints von 0 000016 bis E 01EF16 aufrufbar; nicht zu jedem liefert der Browser eine gültige Glyphe. Für die meisten Sonderzeichen muss man also die jeweilige Codenummer kennen; aber zu allem Überfluss liefert dieselbe Codenummer je nach Eingabeprogramm unterschiedliche Ergebnisse; so liefert z.B. die Codenummer 0156 je nach Eingabe eines der Zeichen £ oder œ oder Ŗ . Dass dieses historisch bedingte Durcheinander keinen aufregt, liegt wohl daran, dass sowieso niemand die vielen ggf. benötigten Codes kennt und daher jeder einen der im folgenden beschriebenen Auswege ergreift. Einen Ausweg bietet in Windows für alle Editoren der Dienst Windowszubehör > Zeichentabelle (charmap.exe; siehe 4.4) und einen anderen bietet in MS-Office der Dienst ... > Einfügen > Symbol (siehe 4.5). Diese beiden Dienste simulieren im engeren Sinn den Buchdruck: Die Lettern/Glyphen werden jeweils aus einem großen Setzkasten zusammen gesucht und zu Zeichenketten zusammen gesetzt. Einen anderen Ausweg bieten die Bildschirmtastaturen und die PowerToys (siehe 4.6). 4.4 Zeichentabelle charmap.exe in Windows
charmap.exe rufen Sie über Windowszubehör > Zeichentabelle auf. Dort stellen Sie zunächst die Schriftart ein und dann in der Erweiterten Ansicht den 8-Bit-Zeichensatz/Codepage (s.r.; grün markiert). Neben dem Zeichensatz Windows: westlich (cp1252) stehen u.a. noch Windows: Baltisch, Windows: Mitteleuropa (cp1250) und Windows: Türkisch (cp1254) zur Auswahl. Damit wird der paneuropäische Schriftraum (fast) abgedeckt. Wenn Sie in der Tabelle einen Buchstaben anklicken, wird der vergrößert angezeigt und unten wird sein Unicode-Codepoint in hexadezimaler vierstelliger Unicode-Notierung (16 Bit) angezeigt, dann in Klammern sein aktueller Windowszeichensatz-Codepoint in normaler hexadezimaler zweistelliger Darstellung (8 Bit), dann die Buchstabenbeschreibung und ggf. ganz rechts der für Word gültige Tastaturcode ("Alt-Nummer") (blau markiert). Siehe https://de.wikipedia.org/wiki/Hexadezimalsystem. Sie können als Zeichensatz natürlich auch Unicode einstellen, dann wird die Tabelle aber unübersichtlich, weil dann z.B. ca 3200 Glyphen der Schriftart Arial in der durch deren Codepoints vorgegebenen Reihenfolge eingeblendet werden. Unabhängig davon, ob ein Zeichen in der Tabelle bereits aktiviert ist, können sie mit der Maus über die Tabelle fahren und erhalten zum aktuellen Zeichgen die Codeinformationen und die Zeichenbeschreibung (rot markiert). Im Beispiel ist sehr schön der Unterschied zwischen dem 8-Bit-Windows-Codepoint und dem 16-Bit-Unicode-Codepoint zu sehen: Unicode-Codepoint U+0160 (= 352 dez.), Windows-Codepoint 0x8A (= 130 dez.). Im Feld Zeichenauswahl (orange markiert) können Sie normalen Text über die Tastatur erfassen oder per Copy and paste eintragen. Wenn Sie dann den Cursor im Text positionieren und mit der Maus ein Zeichen in der Tabelle aktivieren, wird das mittels Auswählen an der Cursorposition eingefügt. Ist der Text komplettiert, wird er mittels Kopieren zur Weiterverwendung in die Zwischenablage übertragen. Das Charmap-Fenster ist in der Größe nicht variierbar, es zeigt immer 10 Zeilen à 20 Glyphen. Wenn man die Tabellen insgesamt untersucht, ist zu erkennen, wie einerseits im 8-Bit-Schema teils logische Abfolgen verwendet worden waren, teils reine Lückenfüllerei betrieben worden war. Z.B. das rot markierte Zeichen Š hat, wie seine Nachbarzeichen Œ und Ž, keinen Bezug zum ansonsten geordneten Alphabet. 4.5 Zeichentabelle Symbol in Office Und wer mit Office arbeitet, sich aber die dortigen Tot-Tasten nicht merken will, muss die Office-Zeichentabelle Symbol aufrufen über Einfügen > Symbol | weitere. Die ist viel mächtiger als charmap.exe, arbeitet dafür nur mit einzelnen Zeichen und nur in Office. Wenn Sie Text in anderen Anwendungen brauchen, müssen Sie diesen also erst in Office komplettieren und dann per Copy and Paste in die Zielanwendung übertragen. Das Symbol-Fenster in Office ist skalierbar. Wenn man die Zeichentabelle auf 32 Zeichen pro Zeile einstellt, korrspondieren die Einträge am besten mit der zugrundeliegenden Hexadezimalanordnung. So ist dann leicht zu erkennen, dass die Tabelle zu unterschiedlichen Zeitpunkten zusammengestellt worden ist. Der Anfang der Tabelle ist aus Kompatibilitätsgründen den 8-Bit-ANSI-Tabellen entsprechend codiert, was eine Anordnung der Groß-/Kleinbuchstaben mit einem 25-Versatz ergibt (links pinkfarben markiert). Später aufgenommene Zeichen sind in direktier Abfolge Groß-Klein-Buchstabe angeordnet (rechts pinkfarben markiert). Oben stellen Sie links die gewünschte Schriftart ein und rechts den gewünschten Subset/Ausschnitt aus der Schriftarttabelle (grün markiert). Unten sehen Sie eine History-Liste der zuletzt verwendeten Zeichen. Wenn Sie dann in der Tabelle oder dieser Liste einen Buchstaben aktivieren, sehen Sie ganz unten dessen Unicodenamen/Buchstabenbeschreibung samt Zeichencode (blau markiert). Mittels Autokorrektur… können Sie dort in der Autokorrektur eine Zeichenkombination vereinbaren, die diese jedesmal bei deren Auftreten durch den entsprechenden Sonderbuchstaben ersetzt. Und mittels Tastenkombination… können Sie eine Tastenkombination definieren, die Sie anstelle des Sonderbuchstabens eintippen können und die dann durch eben diesen Sonderbuchstaben ersetzt wird. Jeder Doppelklick auf ein Zeichen in der Tabelle überträgt das Zeichen in die History-Liste und in den Zieltext. Ein Doppelklick auf ein Zeichen in der History-Liste trägt das Zeichen ebenfalls in den Zieltext. Das Gleiche erledigt ganz unten der Knopf Einfügen . 4.6 Virtuelle PC-Tastaturen / PowerToys Die (normalerweise gut versteckte) Bildschirmtastatur bietet einen wenig bekannten, aber hoch wirksamen Ersatz für die Unzulänglichkeiten der Hardware-Tastatur und der eben beschriebenen Zeichentabellen. Die Bildschirmtastatur läuft problemlos parallel zur Hardware-Tastatur und es gibt sie sogar in zwei Ausführungen:
W10:
W11:
Starten bedeutet, dass die Tastatur wie ein Programmfenster geöffnet und als Programmicon in der Taskleiste angezeigt wird. Bildschirmtastatur I bietet u.a. eine zuschaltbare Zehnertastatur, Bildschirmtastatur II eine ausgefeilte Verwaltung von Sonderzeichen jeglicher Art. I gibt es mindestens seit Windows Vista, II erst seit Windows 8 in Zusammenhang mit dem Tabletmodus (aber unabhängig davon). Das deutlich unterschiedliche Bedienkonzept von I und II erweckt den Eindruck, dass zwei Firmen unabhängig voneinander Bildschirmtastaturen entwickelt hätten.
Beide gibt es auch in Windows 11. I ist in W10 und W11 praktisch identisch layoutet und bedienbar. Aber bei II scheint für W11 eine dritte Firma aktiv gewesen zu sein, die nur wenig mit der zweiten korrespondiert hatte, denn leider ist die Sonderzeichenverwalung in Windows 11 anders layoutet und so fehlerhaft implementiert, dass sie nicht brauchbar ist und das auch noch 40 Monate nach Erstveröffentlichung von W11 !!! Wenn Sie beide freischalten/starten, werden auch beide in der Taskleiste angezeigt (s.r.; W10), aber die linke (I) ist dominant, blockiert also das Einblenden der rechten (II), bzw. blendet diese aus.
II ist aber wichtig für die Sonderzeichenverarbeitung. Schalten Sie also immer die rechte (II) frei; die lässt sich dann jederzeit ein- und ausblenden und die ist eine richtige "eierlegende Wollmilchsau" mit unterschiedlichen Layouts (inc. Freihandtexteingabe). Die Bildschirmtastatur I für erleichterte Bedienung (s.r.) ist in W10 und W11 ziemlich identisch, wie bereits erwähnt. Der Nummernblock kann über Optionen (gelb markiert) hinzugeschaltet werden. Dann entspricht I einer klassischen Hardware-Tastatur, kennt also ebenfalls nur die in 4.3 beschriebenen Tricks für Sonderzeichen. Im Folgenden wird nur Bildschirmtastatur II beschrieben, also die mit Sonderzeichen. Layout und Bedienung unterscheiden sich deutlich zwischen W10 und W11. Und wegen der fehlerhaften W11-Implementation wird nur die W10-Version behandelt mit den beiden Layouts a) Desktop-Tastatur (mit Alt Gr ) und b) Tablet-Tastatur (ohne Alt Gr ).
Von der W11-Version ist sehr zu hoffen, dass MS endlich nachbessert, bleibt sie doch weit hinter W10 zurück. a) Desktop-Tastatur
Vorbemerkung:
Sie öffnen einfach ein Dokument oder ein Texteingabefeld in irgend einer Anwendung, setzen dort den Cursor auf die Eingabestelle, blenden dann die Bildschirmtastatur ein und verschieben sie so, dass der zu bearbeitende Textbereich sichtbar ist. Und dann tippen Sie einfach drauf los, wie die folgenden Bilder zeigen. Nach Klick auf abc schalten Sie zurück auf normale Eingabe. Schneller können Sie mit keiner anderen Methode Mischtext mit Sonderbuchstaben erfassen. b) Tablet-Tastatur
Im vierten Bild ist zu erkennen, wie das Tastaturlayout geändert werden kann (s.r.); aktuell gewählt ist die hellblau unterlegte Kombination.
Rechts neben der gerade aktivierten Option ô sind die beiden normalen Tastenbelegungen zu sehen ( 9 und o ).
Dieser Modus ist zwar schneller als der in den Bildern 1 bis 3 beschriebene. Aber hier werden weniger Zeichen angeboten; in der Reihenfolge der Tasten: So fehlen u.a. bei a die Buchstaben å ă æ ą und bei c alle kombinierten Buchstaben ć č ç und bei s alle kombinierten Buchstaben ś š ş ș. c) Schnelle Akzentuierung mit PowerToys Das Tool Schnelle Akzentuierung kann in W11 als Ersatz für die vermurkste Bildschirmtastatur II verwendet werden.
Das Tool ist in den MS PowerToys enthalten, die eine offizielle Tool-Sammlung zum Anpassen von Windows bieten, ursprünglich schon für W95 erstellt, mittlerweile für W10 und W11 wiederbelebt und überarbeitet. Details und Downloadmöglichkeiten sind u.a. in
Nach Installation sind die PowerToys in der Liste aller Apps unter P als ein Programm aufrufbar und können von dort auch als eine Kachel auf dem Startbildschirm und in der Taskleiste verankert werden. Nach erstmaligem Start der PowerToys *) sind diese aktiv bis zum Herunterfahren des PCs. Bei jedem weiteren Start öffnen sich nur die PowerToys-Einstellungen, um Tools zu de-/aktivieren oder deren Parameter zu ändern (s.r.; gelb markiert: Tool Schnelle Akzentuierung). Nach Schließen des Einstellungsfensters bleiben die aktivierten PowerToys weiterhin aktiv.
*) Die PowerToys können in den Einstellungen so konfiguriert werden, dass sie beim Hochfahren automatisch gestartet werden (Allgemein > Beim Start ausführen). Für die Schnelle Akzentuierung sind die nebenstehenden Einstellungen empfehlenswert (s.r.), die wichtigsten sind gelb markiert. Ein tschechisch-polnisch-türkischer Mustertext wurde ins Wordpad kopiert und etwas vergrößert dargestellt, damit Caron/Hatschek/Winkelakzent und Breve/Bogenakzent besser zu unterscheiden sind. Dann wurde der Reihe nach jeder zu bearbeitende Buchstabe markiert (s.l.; im Bsp L), die zugehörige Buchstabentaste gedrückt und gedrückt gehalten und dann kurz die Leertaste angetippt. Dadurch öffnet sich oben in der Mitte des Bildschirms die Sonderzeichenleiste (s.l.). Die kann nun durch mehrfaches Antippen der Leertaste schrittweise von links her durchlaufen werden, bis der richtige Buchstabe gefunden ist (im Bsp Ł). Weil die Sonderzeichenleiste zu kleine Symbole anzeigt, ist es gut, die Unicode-Bezeichnungen des jeweiligen Zeichens eingeblendet zu bekommen (gelb markiert). Dann erst wird die gedrückte Buchstabentaste losgelassen, wodurch der gefundene Buchstabe von der Sonderzeichenleiste übernommen wird und die Leiste verschwindet. Im Bild sind einige Diakritika auf diese Weise bereits erfasst, bis auf das L mit Schrägstrich, das im Bsp markiert ist. Da für Großbuchstaben jeweils zwei Tasten zu drücken sind, bräuchte man eigentlich drei Finger. Daher ist es bei Großbuchstaben einfacher, mittels Feststelltaste die Shift-Taste vorübergehend zu arretieren, dann können Großbuchstaben wie die Kleinbuchstaben auch mit zwei Fingern bedient werden. Im modernen Fotosatz gibt es eigentlich auch keine kombinierten Buchstaben, schließlich landen auf dem Druckmedium auch nur Letterabdrücke. Da aber die ggf. "vielen" Sonderbuchstaben über normale Tastaturen eingegeben werden müssen, geht das rationell nur über mehrfache Tastenbelegung mit Tot-Tasten und Spezialsoftware. Außerdem ist es letztendlich egal, ob auf Folie, Papier oder Monitore "gedruckt" wird; immer setzt die Software die "Lettern" (irgendwie) zusammen. Daher sind im Unicode Tot-Tasten simuliert; d.h., dort sind in der Kategorie Markierung ohne Extrabreite kombinierende Zeichen definiert (Diakritika; siehe https://de.wikipedia.org/wiki/Unicodeblock_Kombinierende_diakritische_Zeichen). Ein unicode-fähiges Programm kann dann aus mehreren Codepoints ein kombiniertes Zeichen zusammensetzen. Im Gegensatz zur Schreibmaschine gilt aber: erst der Grundbuchstabe, dann die Diakritika.
So kann z.B. aus den drei Codepoints für a (0061)
und ̆ (0306)
und ̃(0303) das Zeichen ẵ zusammengesetzt werden. Das können sogar moderne Browser: ẵ (codepoints 0061 0306 0303). In HTML muss ẵ geschrieben werden. Hier kann man auch ganz unsinnige Zeichen kombinieren, wie auf der Schreibmaschine. Z.B., das Zeichen x̭̤̃̐ (Codepoints 0078 0303 0310 032D 0324; in HTML x̭̤̃̐) gibt es sicher nicht. Die Beschreibung wäre: "LATIN SMALL LETTER X, COMBINING TILDE, COMBINING CANDRABINDU, COMBINING CIRCUMFLEX ACCENT BELOW, COMBINING DIAERESIS BELOW"; kombiniert wird "von innen nach außen". Aus Kompatibilitätsgründen sind die "häufigsten" kombinierten Zeichen aber als "precomposed characters", also mit Einzelcodepoints erfasst, z.B. ẵ (codepoint 1EB5). Derartige Zeichen können auch "schlichtere" Programme darstellen, sofern sie Unicode-Zeichen aufrufen können. Wenn Sie hier experimentieren wollen, kopieren Sie alle eben gezeigten "fertigen" Zeichen nach MS-Word. Wenn Sie dann den Cursor rechts an eines der Zeichen setzen und alt + c drücken, erscheint anstelle des Zeichens dessen Unicode; erneute Eingabe von alt + c wechselt zurück. Und wenn Sie das auch mit Notepad und WordPad versuchen und dabei in allen drei Programmen mit unterschiedlichen Schriftarten spielen, erkennen Sie schnell, dass die Darstellung kombinierter Zeichen eine (Un-)Fähigkeit des jeweiligen Zeichensatzes (fonts) im Zusammenspiel mit dem jeweiligen Editor ist. In diesem Kapitel wurden viele mehr oder weniger umständliche Wege beschrieben, mittels Standard-Tastaturen mit nur rund 100 Tasten korrekte Dokumente auf Basis des Lateinischen Alphabets zu erstellen. Entweder müssen Sie viele Tastaturkürzel kennen oder viele Zeichencodes kennen oder in großen externen Tabellen suchen.
Professionelle Vielschreiber
Details siehe https://de.wikipedia.org/wiki/E1_(Tastaturbelegung)
Gelegenheitsschreiber
Normalanwender Aber unabhängig davon, wie Sie Text erfassen, ist bezüglich Weitergabe und Speicherung unbedingt das nächste Kapitel zu beachten. Eine 8-BIT-Anwendung kann trotz raffinierter Zeicheneingabe nur 8-Bit-Zeichen speichern, also alle Zeichen einer einzigen 8-Bit-Codepage. Das ist unabhängig davon, was auf dem Bildschirm angezeigt wird oder direkt auf dem Drucker ausgegeben wird! Spätestens nach dem Abspeichern und anschließendem erneuten Laden des fraglichen Textes zeigt sich der Erfolg/Misserfolg. In Windows sind standardmäßig der Editor Notepad und die Minitextverarbeitung WordPad vorhanden. MS-Office/Word muss hinzugekauft werden. Alle drei können im Prinzip 16-Bit-Zeichen verarbeiten. Anhand dieser drei Programme werden die Grenzen der Sonderbuchstabenverarbeitung anhand eines kleinen Mustertextes erörtert: Adélaïde Françoise Dufrénoy war in Havlíčkův Brod und in Łódź.
notepad.exe (s.r.) wird über Windowszubehör > Editor gestartet.
NotePad kennt außer dem Zeilenwechsel keine weiteren Textformatierungen und -auszeichnungen, speichert also "nackten" Text (plain text). Die Tastenkombinationen von MS-Word werden nicht erkannt, sondern nur die üblichen Tastatureingaben, ggf. mit den Tot-Tasten Aber Notepad kennt dreistellige Alt-Nummern und kann 16-Bit-Unicodezeichen z.B. über die Bildschirmtastatur aufnehmen. Und beim Speichern kann man die Codierung wählen. Allerdings sind die Auswahlen sehr technisch formuliert: entweder die 8-Bit-Zeichencodetabelle ANSI oder eines der Unicode-Abbildungformate UTF. Und jede Datei wird als txt-Datei abgelegt, also mit der Dateinamenserweiterung .txt .
Wählt man hier versehentlich ANSI, dann wird aus dem Satz D.h., im ANSI-Code (CP 1252 = Windows westlich) kommen die französischen Sonderbuchstaben vor, nicht aber u.a. die polnischen oder tschechischen. wordpad.exe wird über Windowszubehör > WordPad gestartet (s.r.). WordPad kennt Textformatierungen und Textauszeichnungen, aber keine Tastenkombinationen von MS-Word, sondern nur die üblichen Tastatureingaben, ggf. mit den Tot-Tasten ´ ` und ^ . Und WordPad kann ebenfalls 16-Bit-Unicodezeichen z.B. über die Bildschirmtastatur aufnehmen. Und beim Speichern kann man auch hier die Codierung wählen. Aber im Gegesatz zu NotePad werden hier Dateitypen gewählt, die anhand der jeweiligen Dateinamenserweiterung identifizierbar sind. Neben den für Textverarbeitsprogamme konzipierten Dateitypen .docx und .odt ist vor allem das Rich-Text-Format .rtf interessant. Alle drei nehmen Text samt Formatierungen und Auszeichnungen auf. Und alle drei dienen der Weitergabe von Dokumenten zur weiteren Verarbeitung in Windowssystemen. So wie das Format .pdf (in MS-Office) eigentlich nur zur plattformübergreifenden Weitergabe von fertigen Dokumenten dient, dient das Format .rtf zusätzlich zum plattformübergreifenden Austausch zu bearbeitender Dokumente.
"Das Rich Text Format (RTF) ist ein proprietäres Dateiformat für Texte, das von Microsoft 1987 eingeführt wurde. Es kann als Austauschformat zwischen Textverarbeitungsprogrammen verschiedener Hersteller auf verschiedenen Betriebssystemen dienen. Ebenso wird es zum Beispiel für die Darstellung formatierten Textes in Datenbankfeldern eingesetzt. Und dann gibt es noch drei .txt-Formate für "nackten" Text: Textdokument (ANSI, CP 1252), Textdokument MS-DOS-Format (CP 437) und Unicode-Textdokument, wobei letzeres vermutlich in der Codierung UTF-8 gespeichert wird. Word ist die "kingsize-"Textverarbeitung von MS; hier werden alle Zeichen und alle Formatierungen und alle Auszeichnungen verarbeitet und als .docx gespeichert. In diesem Format sind keine Makros einlagerbar, daher ist es sicher. Sollen Makros verarbeitet werden, muss das Format .docm verwendet werden. Das Format .docx ist im Wirklichkeit ein .xlm-Format, das komprimiert ist. Wenn Sie docx durch zip ersetzen, können Sie das Dokument entzippen und die Struktur studieren, die aus mehreren geschachtelten Ordnern besteht (s.l.). Der eigentliche Inhalt steht im Ordner word in document.xml (s.r.). Dokumente lassen sich auch im alten .doc-Format speichern, das im Prizip ein unkomprimiertes und verschlüsseltes .rtf-Format ist. .doc-Dateien können Makros beinhalten und sind daher per se gefährlich, sollten also nicht mehr verwendet werden. .doc-Dateien sind typischerweise über doppelt so groß wie ihre .docx-Pendants. Neben den vielen weiteren zu Office gehörigen Formaten ist natürlich auch .rtf möglich, aber da Word viel mehr Formatierungsmöglichkeiten kennt, sind dessen .rtf-Dateien prinzipiell viel größer als deren WordPad-Pendants. Und es gibt auch ein zunächst nicht näher spezifiziertes .txt-Format. Wenn man den Mustertext in diesem Format abspeichern will, kommt folgende Warnung (s.r.), der die vielen Speicher-Code-Möglichkeiten zu entnehmen sind. Ab 1963 gab es den 7-bit-ASCII-Zeichensatz mit 128 Zeichenpositionen/Codepoints. Der beinhaltete in seiner 1968 standardisierten Form u.a. nur die englischen Großbuchstaben, wurde aber bald um die englischen Kleinbuchstaben ergänzt. Da ein Byte aus 8 Bit besteht, wurden später mehrere 8-bit-Zeichensätze entworfen, die in den unteren 128 Bytes ASCII-kompatibel waren und in den oberen 128 Bytes auch Sonderbuchstaben und Sonderzeichen beinhalteten, leider aber zueinander inkompatibel waren. Bekannteste Beispiele aus DOS-Zeiten waren Codepage 437 (IBM PC) und Codepage 850. CP 437 wird in Windows anscheinend heute noch in der DOS-Box verwendet. Letztendlich müssen alle 8-Bit-Zeichensätze zueinander inkompatibel sein, weil sie nur 256 Codepoints aufweisen können, aber die europäischen Sprachen 512 Codepoints benötigen, also nur in 9 Bits unterzubringen wären. Typische aktuelle Zeichensätze sind die ANSI-Codepage (genauer: Windows 1252 / CP 1252 "Westeuropäisch") und u.a. die Codepages 1250 "Mitteleuropäisch", 1254 "Türkisch" und 1257 "Baltisch". Siehe https://de.wikipedia.org/wiki/Kategorie: Windows-Codepage Nebenstehend ist in der Windows-Zeichentabelle charmap.exe die Codepage 1252 dargestellt (s.r.). Da charmap.exe immer 20 × 10 Zeichen darstellt, ist nie die komplette Codepage sichtbar. In den Tabellen sind nur die Codepoints ab 33 (0x21) aufgeführt, zu denen es Glyphen gibt. Daher hat jede Tabelle andere Lücken und eine andere Länge, wie am jeweiligen Tabellenende zu erkennen ist. Unten sind alle eben erwähnten Codepages dargestellt, jeweils mit dem unteren Teil (Ende der Page), in dem die Unterschiede zwischen den einzelnen Codepages auftreten. Alle Buchstaben sind gelb unterlegt.
Bezüglich der Namenverwaltung in Stammdatenprogrammen gibt es also die 80%-Lösung mittels der immer voreingestellten Codepage 1252 und als Ausweg die 100%-Lösung Unicode, die aber in reinen 8-Bit-Programmen nicht funktioniert. MS-Office kann Unicodes verwenden, aber nicht alle Glyphen in allen wählbaren Schriftarten sind vorhanden. String.Latin der deutschen Meldebehörden ist eine kleine Untermenge von Unicode, die den paneuropäischen Schriftraum abdecken soll. Daher müssen alle Behörden, die Personaldaten führen, ihre Datenbanken auf Unicode umstellen.
Unicode ist gleichbedeutend mit Universal Coded Character Set (UCS), Unicode ist gegliedert in 17 Codeplanes zu je 65.536 codepoints, also zusammen 1.114.112 codepoints und kann damit praktisch alle aktuellen und vergangenen Alphabete/Sprachen der Welt aufnehmen, genauer, alle bekannten Schriftsysteme und Zeichen kodieren. Die Codepoints werden üblicherweise hexadezimal nummeriert. Die erste Unicode-Codeplane heißt Basic Multilingual Plane, diese BMP umfasst 216 = 65.536 Codepoints, die also als Doppelbytes hexadezimal angesprochen werden können, also von 00 00 bis FF FF. Zum Vergleich: Joseph D. Becker, der Schöpfer des ersten Unicode-Entwurfs, hat 1988 vermutet, dass damals der in allen Zeitungen und Zeitschriften der Welt benötigte Zeichenvorrat "zweifelsfrei weit unter 214 = 16.384 liegt"; siehe https://de.wikipedia.org/wiki/Unicode und https://de.wikipedia.org/wiki/Hexadezimalsystem.
"Unicode ist lediglich ein abstrakter Standard, der jedem vorhandenen Zeichen eine Nummer (den codepoint) zuweist. Diese Codepoints werden hexadezimal angegeben (U+1F46 usw.). Die Codierung (encoding) legt fest, in welcher Form die codepoints in einer Datei gespeichert werden. UTF-8, UTF-16, UTF-32 sind nicht gleichbedeutend mit Unicode, sondern Standards, wie Unicode-Zeichen gespeichert werden.
Der komplette Unicode ist in https://unicode-table.com/de/ aufrufbar. Dort sind die derzeit 917.999 definierten Codepoints von 0 000016 bis E 01EF16 aufrufbar; die Tabelle ist offenbar lückenhaft, denn sie enthält nur ca. 120.000 tatsächlich "gefüllte" Codepoints; nicht zu jedem liefert der Browser eine gültige Glyphe. Sinnigerweise sind erst am Ende der meterlangen Tabelle Bedienungshinweise für die Tabelle und Erklärungen angegeben:
Unicode
8.1 Haptisches 8.2 Historisches 8.3 Mathematisches Im vorliegenden Text ist oben viel von 8 Bit und 16 Bit die Rede, von Bytes und Hex-Code usw. Eigentlich geht es dabei "nur" ums Zählen, also um Zahlensysteme und speziell um Stellenwertsysteme und da wiederum um Dualsystem, Dezimalsystem und Hexadezimalsystem. Darüber gibt es jede Menge Informationen im Netz. Eine kleine Link-Auswahl ist am Ende des Abschnitts aufgeführt. Wem diese Seiten im Netz zu viel sind, dem bieten die folgenden Zeilen einen Kurztrip durch das Metier; Lehrer bleibt halt (Ex-)Lehrer: Wir haben an zwei Händen zusammen zehn Finger, daher rechnen wir im Zehnersystem/Dezimalsystem mit den zehn Ziffern 0 1 2 3 4 5 6 7 8 9. Hätten wir nur drei Finger an jeder Hand, würden wir vermutlich im Sechsersystem/Senärsystem mit den sechs Ziffern 0 1 2 3 4 5 rechnen. Hätten alle Menschen nur einen Arm mit fünf Fingern, dann eben im Fünfersystem/Quinärsystem mit den fünf Ziffern 0 1 2 3 4. Und hätten wir an jeder Hand nur einen Daumen, dann würden wir im Zweiersystem/Dualsystem mit den Ziffern 0 1 rechnen. Würden wir mit Händen und Füßen rechnen, wie die Mayas, hätten wir ein Zwanzigersystem/Vigesimalsystem mit den zwanzig "Ziffern" 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19. Um Verwirrung zu vermeiden, müssten 10 bis 19 als Ziffer-Zeichen vorhanden sein, denn 10 bis 19 sind keine Ziffern, sondern aus Ziffern zusammengesetzte Zahlen. Also müssten wir Ersatzzeichen erfinden oder auf Buchstaben ausweichen: 0 1 2 3 4 5 6 7 8 9 A B C D E F G H I K, also mit den "Ziffern" "A" (=10) bis "K" (=19). Glücklicherweise hat sich das Zwanzigersystem nicht durchgesetzt. Aber das Sechzehnersystem/Hexadezimalsystem mit den sechzehn Ziffern 0 1 2 3 4 5 6 7 8 9 A B C D E F hat sich in der EDV als sehr praktisch erwiesen. Es würde Wesen entsprechen, die mit vier Gliedmaßen zu je vier Fingern/Zehen rechnen würden. Mit sechs Fingern an jeder Hand würden wir im Zwölfersystem/Duodezimalsystem rechnen, also mit den Ziffern 0 1 2 3 4 5 6 7 8 9 A B. Weil 12 die vier Teiler 2, 3, 4 und 6 hat, wäre das u.U. praktischer als das Zehnersystem mit nur zwei Teilern 2 und 5. Bis 12 kann man auch mit einer Hand zählen (Fingerglieder), mit der anderen merkt man sich dann die Anzahl der Duzende und schon zählt man zweihändig bis 60 ! Und dann befindet man sich im Sexagesimalsystem. Das oben erwähnte Zwanzigersytem war u.a. bei den Mayas üblich; und sie hatten tatsächlich Ziffern für 10 bis 19 und sie hatten bereits die Null! Im Französischen erinnern 80 = quatre vingt = 4×20 und 90 = quatre vingt dix = 4×20+10 an das Zwanzigersystem. Auch an das oben erwähnte Sechzehnersystem erinnern die französischen Zahlziffern 1 2 3 … 15 16 = un deux trois … quinze seize (ohne Null). Ab sieb-zehn acht-zehn … folgen zusammengesetzte Zahlworte dix-sept dix-huit … In historischen Zeiten gab es ferner das Zwölfersystem/Duodezimalsystem, in Deutschland mit dem Dutzend (= 12), Schock (= 5 Dutzend = 60), Gros (= 12 Dutzend = 122 = 144) und dem Maß (= 12 Gros = 123 = 1728). Auf Uhrenziffernblättern hat sich bis heute aus dem Römischen abgeleitet die Bezifferung Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ erhalten. Und vor allem unsere Zahlworte spiegeln das Zwölfersystem wieder in Form der Zahlziffern eins zwei drei vier fünf sechs sieben acht neun zehn elf zwölf; ab drei-zehn wiederholen sich diese Ziffern in zusammengesetzten Zahlworten. Weil damals die Null nicht bekannt war, gehen die Zahlworte von eins bis zwölf und nicht von null bis elf. Und von früher geerbt haben wir auch Reste des Sechzigersystems/Sexagesimalsystems in Form der Zeitmessung 1 Stunde = 60 Minuten = 602 Sekunden und in Form der Winkelmessung Vollwinkel 360° = 6×60 Bogengrad = 6×602 Bogenminuten = 6×603 Bogensekunden, wobei eine Bogenminute am Äquator der Länge einer Seemeile entspricht (1,852 km × 6×602 = 40.003,2 km). Sowohl das Zwölfer- als auch das Sechzigersystem habeh ihre Wurzeln vermutlich im (zweihändigen) Zählen mit Fingergliedern. Die alten Römer kannten die elf Ziffern I V X L C D M/ↀ ↁ ↂ ↇ ↈ das ist aber kein Elfersystem, denn diese Ziffern haben die feststehenden Werte 1 5 10 50 100 500 1000 5000 10000 50000 100000 (Additionssystem) und dabei kommt keine Null vor! Vermutlich, weil sich damit nur sehr beschwerlich rechnen ließ, gab es in der großen römischen Kultur keine wesentlichen mathematisch-naturwissenschaftlichen Errungenschaften. Dafür war sie kulturell und architektonisch wegweisend. Die Ziffer Null ist aber eine äußerst wichtige Ziffer für kaufmännisches Rechnen und für Stellenwertsysteme.
Eine Fundgrube für Anleihen an nichtmetrische (= nichtdezimale) Zahlensyteme bietet / bot / bietet wieder Großbritannien mit seinem Währungssystem und seinem Maßsystem.
Die Concorde war Gemeinschaftsprojekt von Frankreich und Großbritannien gewesen. Angesichts der historischen Dezimalisierungswut der Franzosen war vielleicht nicht die Schaffunbg des einzigen zivilen Überschallfugzeugs die Leistung, sondern, dass die Planung trotz der unterschiedlichen Maßsysteme geklappt hatte.
Stellenwertsystem I: Dezimalsystem
Stellenwertsystem II: Dualsystem
Stellenwertsystem III: Schreibweise in Stellenwertsystemen Bei einem Stellenwertsystem wird die Anzahl der dort erlaubten Ziffern als Basis b bezeichnet. In diesem Sinn ist jedes Stellenwertsystem mit Basis b ein b-adisches Zahlensystem. Stellenwertsystem I: Dezimalsystem Potenzschreibweise für Zehnerpotenzen = Grundlage des Dezimalsystems mit Ziffernvorrat 0 1 2 3 4 5 6 7 8 9 und Basis 10:
Das Dezimalsystem ist also ein Stellenwertsystem mit Basis 10: der Wert(-faktor) jeder Ziffer ist eine Zehnerpotenz und ergibt sich aus der Stelle, an der die Ziffer steht:
Wenn für die Zehnerpotenzschreibweise gilt; "10 hoch Anzahl der Nullen", dann ist auch logisch, dass gilt: 100 = 1, denn 1 hat nun mal 0 Nullen ;-) . Beispiel 1
12.034 = 1×104 + 2×103 + 0×102 + 3×101 + 4×100
Die Null wurde viel später "erfunden", als die übrigen Ziffern, denn sie bewirkt "nichts und viel": Beim Addieren von Null, ändert sich der Wert nicht; beim Multiplizieren mit Null ist der Wert selber Null. Null ist das neutrale Element der Addition und das absorbierende (omnipotente) der Multiplikation. 120.340 = 12.034 × 10 12.034 = 12 × 103 + 034 120.034 = 12 × 103 × 10 + 034 = 12 × 104 + 34 Beispiel 2
Man kann Potenzen offensichtlich zusammenfassen/gruppieren. Stellenwertsystem II: Dualsystem
Potenzschreibweise für Zweierpotenzen = Grundlage des Dualsystems mit Ziffernvorrat 0 1 und Basis 2: Beispiel 3
Man kann auch hier Potenzen zusammenfassen, wie wir noch sehen werden. Stellenwertsystem III: Schreibweise in Stellenwertsystemen 1.234 = 1.23410 = 0000 0100 1101 00102 = 23228 = 86A12 = 04D216 = 31E20 Gegenprobe: 4D216 = 4 × 162 + 13 × 161 + 2 × 160 = 1.024 + 208 + 2 = 1.234 Einerseits ist neben dem "natürlichen" Dezimalsystem im Zwanzigersystem am leichtesten/schnellsten zu rechnen, andereseits benötigt es sehr viele "Ziffern". Da hat sich für die EDV ein glänzender Kompromiss in Form des Hexadezimalsystems ergeben, weil 16 als Zweierpotenz praktisch das Achter-, Vierer- und Dualsystem beinhaltet (Zusammenfassen/Gruppieren von Potenzen). In der EDV werden Zahlen gerne mit führenden Nullen auf (Vielfache von) 16 Bit aufgefüllt, das entspricht (Vielfachen von) vierstelligen Hexadezimalzahlen. Schreibweise für vierstellige Hexadezimalzahlen: FFFF16 0xFFFF FFFFhex FFFFh Unicode: U+FFFF HTML:  Stellenwertsystem IV: Vom Dual- über Byte- zum Hexadezimal-System Computer rechnen bekanntlich im Dualsystem: z.B. 0 = "Strom aus" / "Spannung niedrig" 1 = "Strom ein" / "Spannung hoch". Eine duale Ziffer 0 oder 1 heißt auch Bit (Binary digit); die Zahl in Beispiel 3 1101 01102 (= 214) hat also 8 Bits (8 Dualstellen); die größte 8-Bit-Zahl ist 1111 11112 = 255. Größere Zahlen benötigern eben mehr Bits; sehr viele Bits kann man übersichtlich zusammenfassen/gruppieren. - "Bytesystem" = 256-System Intern werden die Codepoints von Zeichensätzen auch mit Dualzahlen/Binärzahlen gespeichert. Die Standard-Zeichensätze brauchen Platz für 256 Codes 0 bis 255, also für 8 Bit. Daher ist die "kleinste" Speichereinheit in Computern typischerweise 8 Bit = 1 Byte. So werden auch "normale" Zahlen dargestellt; und wenn es um größere Zahlen geht, werden eben mehrere Bytes zusammengefass: 1 Wort = 2 Bytes, 1 Doppelwort = 4 Bytes (analog 8-Bit-Architektur, 16-Bit-Architektur, 32-Bit-Architektur). Das entspricht aber einem Stellenwertsystem mit Basis 256, einem "Bytesystem": Die 4-stellige Zahl abcd im Bytesystem hat den Wert a × 2563 + b × 2562 + c × 2561 + d × 2560, wobei jede der Byte-Ziffern a b c d einen Wert von 0 bis 255 haben kann. Um derartige Zahlen darzustellen, bräuchte man also 255 verschiedene Ziffern mit den Werten 0 … 255; da würde auch kein Alphabet aushelfen. Daher spricht auch niemand vom Bytesystem. Aber alle rechnen damit, allerdings mit einem Trick, und daher ohne es zu merken!
Die größte vierstellige Bytezahl (also 4 Bytes zu je 8 Bit = 32 Bits) hat die Ziffern a = b = c = d = 255, also den Wert
Das ist der größtmögliche Umfang des Unicodes, könnte also mehrfach für die ganze Menschheitsgeschichte reichen (einschließlich elbisch & co)! Zur Zeit werden nämlich "nur" 17 Codeplanes verwendet, das sind 17 × 2562 = 17 × 65.536 = 1.114.112 Codepoints - Hexadezimalsystem Der Trick zum schreibtechnischen Umgehen des Bytesystems besteht darin, dass jedes Byte in zwei Halbbytes (Nibbles mit 4 Bit) zerlegt wird, für welche die Hexadezimalzahlen 0 1 2 3 4 5 6 7 8 9 A B C D E F ausreichen. Das ist ursprünglich der Trick des Zusammenfassens/Gruppierens von Potenzen, nun werden eben die Bits zu Nibbles zusammengefasst und damit die Bytes in Halbbytes getrennt, als mittels zwei Hex-Ziffern dargestellt. Beispiel 4
Somit gilt 222 = 1101 11102 = DE16 Beispiel 5
Beispiel 6
Mit AFFE16 = 45.054 und ACDC16 = 44.252 und 164 = 65.536
Wikipedia-Portale https://de.wikipedia.org/wiki/Portal:Schrifthttps://de.wikipedia.org/wiki/Portal:Unicode zu 2. Lateinisches Schriftsystem https://de.wikipedia.org/wiki/Schrifthttps://de.wikipedia.org/wiki/Lateinisches_Schriftsystem https://de.wikipedia.org/wiki/Liste_lateinischer_Alphabete http://www.mediensprache.net/networx/networx-49.pdf, insbes. Kap. 2: Der paneuropäische lateinische Zeichensatz zu 3. Zeichensatz-Grundlagen https://de.wikipedia.org/wiki/Glyphehttps://de.wikipedia.org/wiki/Zeichensatz LATEINISCHE ZEICHEN IN UNICODE zu 4. Eingabe von Sonderbuchstaben MS: Tastenkombinationen für internationale Zeichenhttps://de.wikipedia.org/wiki/Codepage_850, auch Codepage 858 https://unicode-table.com/de/ https://de.wikipedia.org/wiki/Hexadezimalsystem https://de.wikipedia.org/wiki/Unicodeblock_Kombinierende_diakritische_Zeichen zu 5. Speichern von Text mit Sonderbuchstaben https://de.wikipedia.org/wiki/Rich_Text_Formathttp://formatting-and-more.de/2016/01/31/rtf-rich-text-format/ http://www.aboutvb.de/bas/formate/pdf/rtf.pdf zu 6. 8-Bit-Zeichensätze https://de.wikipedia.org/wiki/Kategorie: Windows-Codepagehttps://docs.microsoft.com/de-de/windows/win32/intl/code-page-identifiers zu 7. Unicode und UTF https://de.wikipedia.org/wiki/Unicodehttps://de.wikipedia.org/wiki/Hexadezimalsystem Sonderzeichen, TEI und Unicode https://de.wikipedia.org/wiki/Unicode_Transformation_Format https://wiki.selfhtml.org/wiki/Zeichencodierung#UTF-8:_Die_Codierungsform_der_Wahl https://unicode-table.com/de/ zu 8. Anhang: Hexcode
https://de.wikipedia.org/wiki/Zahlensystem Dietrich Tilp | Okt. 24 |