From: sax!live.robin.de!kosta (Kosta Kostis) Newsgroups: de.comp.standards,de.admin.news.software Subject: FAQ2BE: Umlaute im deutschprachigen Usenet Date: Sun, 18 Dec 94 15:07:18 +0100 Hallo Leute! Dieser Artikel ist eine Vorversion eines Umlaute-FAQ, der den alten FAQ in de.newusers ersetzen soll. Dieser wird seit Oktober 1994 monatlich in den Gruppen "de.comp.standards" und "de.admin.news.software" gepostet. Bitte saemtliche Anregungen an kosta@live.robin.de (Kosta Kostis) mailen. Ich werde versuchen das Teil dann schrittweise zu verbessern, damit es dann irgendwann in der angestrebten "Zielgruppe" landen kann. Vielen Dank fuer wertvolle Hinweise an: Heiko Bobzin, Lothar Borrmann, Karl Brodowsky, Tilman Burmester, Hans-Ch. Eckert, Andreas Heidemann, Robert Joop, Markus Kuhn, Gerold Meerkoetter, Ulrich Mueller, Heiko Schlichting, Wolfgang Strobl, Christian Weisgerber, Wolfgang Zenker Sollten weitere Leute Mails an mich geschickt haben, so sind diese leider verloren gegangen bzw. in meinem Mail-Durcheinander "verschuett" gegangen, sorry. =========================================================================== Umlaute im deutschsprachigen Teil des Usenet =========================================================================== Inhaltsverzeichnis: Kapitel Bezeichnung 1. Intro 2. Zeichenkodierungen 3. MIME-Header 4. Einstellungen fuer ISO 8859-1 und MIME Anhang Bezeichnung F. ISO 8859 Fonts G. ISO 8859-1 Gueltigkeitsbereiche P. ISO 8859-1 Peripherie etc. T. ISO 8859 Tools zur Konvertierung von Zeichenkodierungen Z. Zeichenkodierungsbeschreibung von ISO 8859-1 (Kodes A0 bis FF) =========================================================================== 1. Intro =========================================================================== Dieser Artikel ist fuer diejenigen gedacht, die wissen moechten, wie sie an die nach ISO 8859-1 kodierten Umlaute (und andere) Zeichen in News kommen. Er soll beschreiben, was moeglich ist und nicht diskutieren, ob alle damit "gluecklich" werden, ausser vielleicht: Niemand sollte "angemacht" werden wegen der Verwendung von Umschreibungen fuer Umlaute wie z. B. "ae". Aehnliches gilt fuer die TeX-Schreibweise. Genauso sollte aber auch niemand "angemacht" werden wegen der Verwendung von RFC-1521 konformen Zeichen nach ISO 8859-1 kodiert mit entsprechenden MIME-Headerzeilen. Um die Zielgruppe auch erreichen zu koennen, wurde dieser Artikel, bis auf die Zeichensatztabelle im Anhang Z, durch einen Konverter gehetzt, der Umlaute "expandiert". Das Programm entspricht im wesentlichen dem Programm "iso2asc", das spaeter noch einmal angesprochen wird. Nach Moeglichkeit sollte sich jeder Betreiber eines Usenet-Knotens mit deutschsprachigen Benutzern bemuehen, dass MIME/ISO 8859-1 Texte korrekt dargestellt werden (zur Not kann auf alten Terminals auch auf eine Ersatzdarstellung konvertiert werden). Weniger dringend, aber ebenfalls wuenschenswert, ist die Moeglichkeit zur Eingabe von Zeichen ausserhalb der US-ASCII Zeichenkodierung, wie z. B. Umlaute. Der Usenet-Standard zur *8-bit* Kodierung in den deutschsprachigen Gruppen de.* ist ISO 8859-1 (vgl. dazu RFC-1521). Gateways sollten beim Uebergang in das Usenet entsprechende Zeichenkodierungskonvertierungen vornehmen und entsprechende Header verwenden. Das wird bei einigen Gateways bereits getan (z. B. beim MausNet, einem deutschsprachigem Mailboxnetz). Wer Fragen zu Umlauten im Usenet diskutieren moechte, moege das bitte in der Gruppe de.comp.standards tun. Diese Gruppe wurde unter anderem eben dafuer eingerichtet. In anderen News-Hierarchien werden 8-bit Zeichenkodierungen bereits seit langer Zeit erfolgreich eingesetzt, wie z. B. koi8-r in den relcom-Gruppen. Dort werden allerdings keine MIME-Header verwendet und bisher auch sonst kein besonderer Wert auf Kompatibilitaet gelegt. =========================================================================== 2. Zeichenkodierungen =========================================================================== =========================================================================== 2.1 Geschichte der Zeichenkodierungen =========================================================================== Ich bin mir bewusst, dass diese Auflistung sowohl unvollstaendig als auch einigermssen willkuerlich ist - man moege mir das nachsehen. Ende April 1965 wurde ECMA-6 verabschiedet. ECMA-6 ist die 7-bit Zeichenkodierung, die auch als US-ASCII oder auch als ISO 646 bzw. als DIN 66003 bekannt und weit verbreitet ist. (Eigenlich sollte man denken, dass der US-ASCII auch aus den USA stammt, jedoch ist mir keine US-amerikanische Quelle bekannt, die aelter als April 1965 ist - kann das sein?) Mit der Zeit wurde den EDV-Treibenden das Umschreiben von Umlauten zu laestig ;) und sie entwarfen nationale Varianten von ISO 646. Das fuehrte dazu, dass man sich z. B. in Deutschland zwischen Umlauten und eckigen sowie geschweiften Klammern entscheiden musste oder mit Escape-Sequenzen arbeiten. Bekannte Terminals, die ISO 646 als Zeichenkodierung verwendet haben: DEC VT52, DEC VT100 Im Jahre 1981 kam der IBM PC mit einer 8-bit Zeichenkodierung heraus. Leider schienen die Entwickler bei der Reihenfolge der Zeichen gewuerfelt zu haben. Das Ergebnis: die IBM Codepage 437. Im Jahre 1982 wurden die ersten DEC VT220 und VT240 auf den Markt gebracht. Die hatten einen Vorlaeufer von ISO 8859-1 im Einsatz: DEC MCS (Multinational Character Set). Im Jahre 1985? kam der Commodore Amiga auf den Markt, der bereits damals ISO 6937/2 verwendet hat, welcher im wesentlichen ISO 8859-1 entspricht. Microsoft Windows erblickte 1984 das Licht der Welt und war mit ISO 6937/2 ausgestattet. Im Maerz 1985 wurde ECMA-94 verabschiedet. Dieser Standard ist auch als ISO 8859-1 bis ISO 8859-4 bekannt. ISO 8859-1 wurde 1987 verabschiedet. Die Europaeer waren mehr als 2 Jahre voraus. ;) Im Jahre 1987(?) kam MS-DOS 3.3 auf den Markt und damit die IBM Codepage 850. Diese Codepage enthaelt saemtliche Zeichen, die auch in ISO 8859-1 vorkommen, allerdings in einer anderen Reihenfolge, so dass eine verlustfreie Konvertierung moeglich wurde. Andere Rechner haben wieder andere Zeichenkodierungen, die sich aber im Zweifel mit geringen Aufwand von/nach ISO 8859-1 wandeln lassen. =========================================================================== 2.2 Warum ISO 8859-1? =========================================================================== Vorteile von ISO 8859-1 gegenueber anderen 8-bit Zeichenkodierungen: - ISO 8859-1 ist eine herstellerunabhaengige internationale Norm. - Viele Hersteller unterstuetzen mittlerweilse ISO 8859-1. - Es gibt eine Fuelle von Konvertern von/nach ISO 8859-1. - RFC-1521 (MIME) unterstuetzt ISO 8859-1. - ISO 8859 ist so konzipiert, dass Zeichen im Bereich 0x80 bis 0x9F nicht vorkommen duerfen bzw. sie sind nicht durch druckbare Zeichen belegt. Das ist besonders in einem so heterogenen Netz wie dem Usenet wichtig, da dieser Bereich bei 8-bit Terminals (z. B. DEC VT3xx) fuer Steuerzeichen vorgesehen ist. Wird beim einem ISO 8859 Zeichen das hoechstwertige "abgeschnitten", so entsteht ein darstellbares US-ASCII Zeichen. Sobald ISO/IEC 10646-1 und UTF-8 (siehe unten) eingefuehrt werden und Verbreitung finden, wird dieses Argument allerdings an Bedeutung verlieren. Fuer UTF-8 werden die Kodes zwischen 0x80 und 0x9F benoetigt. Es ist daher sinnvoll, News-Software auf Dauer auf diese Tatsache einzustellen. - MS-DOS Codepages, Apple Mac Zeichenkodierungen und auch der NeXTSTEP Encoding Vector verwenden leider Kodes im Bereich 0x80 bis 0x9F. Das ist, wie gesagt, zum aktuellen Zeitpunkt nicht vorteilhaft. Die Anzahl der zu unterstuetzenden Kodierungen sollte man aus technischen Gruenden ohnehin moeglichst gering halten um die Komplexitaet der Programme nicht auch noch durch aufwendige Konverter zu ueberfrachten. Es ist schon muehselig genug von den "Hauszeichensaetzen" in die von RFC-1521 genannten Zeichensaetze konvertieren zu koennen. Allgemeine Einschraenkungen von ISO 8859-1 als 8-bit Zeichenkodierung: Diese Zeichenkodierung deckt zwar die wichtigsten Zeichen, die auf den Schreibmaschinen fuer ueber 14 (hauptsaechlich westeuropaeische) Sprachen zu finden sind, aber als langfristige, weltweit akzeptable Zeichenkodierung ist ISO 8859-1 ungeeignet, da z. B. nicht mal alle europaeischen Sprachen abgedeckt werden. Ausserdem fehlen auch fuer deutschsprachige Benutzer viele Zeichen, wie sie etwa im wissenschaftlichen Bereich sehr wuenschenswert waeren (z. B. deutsche Anfuehrungszeichen, mathematische Symbole, usw.). In anderen Laendern koennen auch andere Zeichensaetze von Interesse sein, so z. B. ISO 8859-2 fuer Tschechien und Polen etc. oder ISO 8859-7 fuer Griechendland. Die Russen bevorzugen koi8-r und nicht ISO 8859-5. Hier wurde wohl am "Markt" vorbei genormt... Auf lange Sicht: Als langfristige Loesung bietet sich daher ISO/IEC 10646-1/Unicode 1.1 an. Da dieser sehr neue Standard bisher kaum implementiert werden konnte, ist er *derzeit* noch keine alltagstaugliche Alternative fuer ISO 8859-1. Entwickler von Usenet-Software sollten sich jedoch schon einmal mit dieser Alternative vertraut machen, insbesondere mit der UTF-8 Kodierung, die fuer das Usenet besonders geeignet erscheint, da ASCII-Texte ohne Veraenderung dargestellt werden koennen. Weitere Informationen zum Thema ISO/IEC 10646-1:1993 und UTF-8 finden Entwickler und andere Interessierte auf ftp.uni-erlangen.de in pub/doc/ISO/charsets/. =========================================================================== 3. MIME-Header =========================================================================== RFC-1521 beschreibt die Multimedia Internet Mail Extensions, auch als MIME bekannt. Nach MIME ist ISO 8859-1 ein gueltiger Zeichensatz. Dieser muss allerdings den Mail- und News-Readern angezeigt werden. Zu diesem Zweck gibt es entsprechende MIME Header-Zeilen: MIME-Version: 1.0 Content-Type: text/plain; charset=ISO-8859-1 Content-Transfer-Encoding: 8bit Diese Header-Zeilen sind fuer MIME-kompatible Software wichtig. Wer ISO 8859-1 Zeichen ohne diese Header verschickt, ist durch RFC-1521 nicht sanktioniert. Wer auf Umlaute etc. auch in den Header-Zeilen nicht verzichten moechte, der sollte sich RFC-1522 zu diesem Thema anschauen und sich ueberlegen, ob er/sie das dann immer noch will... ;) 8-bit Zeichen in den Header-Zeilen haben in der Vergangenheit immer wieder zu Problemen gefuehrt. Manche Antik-Software stuerzt sogar ob dieser Zeichen einfach ab. =========================================================================== 4. Einstellungen fuer ISO 8859-1 und MIME =========================================================================== Folgende Tips entstammen zum grossen Teil dem Umlaute-FAQ ftp.cs.tu-berlin.de:/projects/umlaute/install. Weitere Tips habe ich u. a. diversen Postings in diversen Gruppen entnommen. Eine Nennung der einzelnen Personen ist dabei leider nicht mehr moeglich - trotzdem vielen Dank an alle! In diesem Kapitel sind wohl noch die groessten Luecken. Bitte schickt mir was immer ihr zu diesem Thema beitragen koennt, damit dieses Teil moeglichst vielen Leuten hilft. Die Reihenfolge der genannten Plattformen ist alphabetisch... --------------------------------------------------------------------------- 4.1 Acorn RISC OS --------------------------------------------------------------------------- Einer der Standard-Zeichensaetze ist ISO 8859-1. Eine Zeichenkonvertierung ist daher nicht notwendig. --------------------------------------------------------------------------- 4.2 Amiga OS --------------------------------------------------------------------------- Der Standard-Zeichensatz ist ISO 8859-1. Eine Zeichenkonvertierung ist daher nicht notwendig. --------------------------------------------------------------------------- 4.3 Apple Macintosh (System 7) --------------------------------------------------------------------------- Der Zeichensatz Apple Roman ist von der Zeichenmenge weitgehend identisch mit ISO 8859-1, jedoch ist eine andere Kodiering vorhanden. Konverter lassen sich leicht mit den in Anhang T genannten Tools erzeugen. Software wie "Eudora" soll in der Lage sein mit ISO 8859-1 direkt zu arbeiten und soll auch MIME unterstuetzen. --------------------------------------------------------------------------- 4.4 Atari (GEM) --------------------------------------------------------------------------- Der Zeichensatz des Atari ist weitgehend identisch mit der IBM Codepage 437. Siehe PC. Konverter lassen sich leicht mit den in Anhang T genannten Tools erzeugen. Die gaengige Usenet Software fuer den Atari nimmt diese Konvertierung bereits automatisch vor (z. B. HERMES). --------------------------------------------------------------------------- 4.5 NeXTSTEP --------------------------------------------------------------------------- Der NeXTSTEP Encoding Vector ist von der Zeichenmenge her weitgehend identisch mit ISO 8859-1, jedoch ist eine andere Kodierung vorhanden. Konverter lassen sich leicht mit den in Anhang T genannten Tools erzeugen. NeXTSTEP ist in diesem Zusammenhang als U*IX-Derivat zu betrachten. --------------------------------------------------------------------------- 4.6 PC --------------------------------------------------------------------------- PC sind in der Regel mit folgenden Video-Karten bestueckt: MDA, HGC, CGA, EGA und VGA. Der Standard-Zeichensatz fuer diese Video-Adapter ist IBM Codepage 437. Dieser Zeichensatz umfasst US-ASCII, die fuer einige europaeische Sprachen notwendigen Zeichen, Rahmenzeichen und einiges mehr. Bei EGA und VGA lassen sich andere Zeichensaetze nachladen, was durch manche Betriebssysteme unterstuetzt wird und durch andere leider nicht. --------------------------------------------------------------------------- 4.6.1 PC unter Coherent 3.x, 4.x --------------------------------------------------------------------------- Coherent unterstuetzt 8-bit und die IBM Codepage 437 generell. Fuer Coherent 4.2 gibt es optional X11. Coherent ist in diesem Zusammenhang als U*IX-Derivat zu betrachten. --------------------------------------------------------------------------- 4.6.2 PC unter Linux --------------------------------------------------------------------------- Linux unterstuetzt im Console-Betrieb ISO 8859-1 in der Form, dass Linux die in der IBM Codepage 437 vorhandenen Zeichen auf ISO 8859-1 abbildet und umgekehrt. Linux ist in diesem Zusammenhang als U*IX-Derivat zu betrachten. --------------------------------------------------------------------------- 4.6.3 PC unter Minix --------------------------------------------------------------------------- Soweit mir bekannt ist, unterstuetzt Minix 8-bit und die IBM Codepage 437. Es gilt, bis auf den Hinweis zu X11, das gleiche wie beim PC unter Coherent. Minix ist in diesem Zusammenhang als U*IX-Derivat zu betrachten. --------------------------------------------------------------------------- 4.6.4 PC unter MS-DOS --------------------------------------------------------------------------- Der Standard-Zeichensatz fuer MS-DOS in Deutschland ist in der Regel IBM Codepage 437. Seit MS-DOS 5.0 versucht das Installationsprogramm die IBM Codepage 850 zu installieren. Diese hat gegenueber der Codepage 437 den Vorteil, dass saemtliche Zeichen aus ISO 8859-1 vorhanden sind, was aber zu Lasten einiger Rahmenzeichen ging. Weiterhin kosten die entsprechenden Geraetetreiber ein paar KB. Konverter lassen sich leicht mit den im Anhang T genannten Tools erzeugen. Es gibt auch Freeware ISO 8859 Codepages fuer MS-DOS (z. B. Codepage 819) - siehe Anhang F. --------------------------------------------------------------------------- 4.6.4.1 PC unter MS-DOS und MS-DOS Waffle 1.65 --------------------------------------------------------------------------- Fuer MS-DOS Waffle 1.65 gibt es einen einfachen MIME-Patch. Siehe Anhang P. --------------------------------------------------------------------------- 4.6.4.2 PC unter MS-DOS und Microsoft Windows --------------------------------------------------------------------------- Microsoft Windows verwendet in der Regel ISO 8859-1. Es gibt aber mittlerweile auch Versionen fuer andere Sprachraeume (z. B. Kyrillisch). --------------------------------------------------------------------------- 4.6.5 PC unter OS/2 --------------------------------------------------------------------------- IBM OS/2 2.1 verwendet intern leider immer noch IBM Codepage 850 und nicht ISO 8859-1 aka IBM Codepage 819. Das Windows Sub-System zeigt ISO 8859-1 jedoch korrekt an und auch die Konvertierung ist recht einfach und sogar "verlustfrei". --------------------------------------------------------------------------- 4.6.6 PC unter Windows NT --------------------------------------------------------------------------- Microsoft Windows NT verwendet intern Unicode. Als Untermenge ist auch ISO 8859-1 vorhanden. Zeichensatzmaessig gibt es hier keine besonderen Probleme. --------------------------------------------------------------------------- 4.7 U*IX Umgebungen --------------------------------------------------------------------------- --------------------------------------------------------------------------- (a) 7-bit Terminal (VT52 oder VT100) --------------------------------------------------------------------------- Da hilft dann nur noch das Programm iso2asc von Markus Kuhn (siehe Anhang T) --------------------------------------------------------------------------- (b) falsch eingestelltes 8-bit Terminal (VT2xx, VT3xx, VT4xx) --------------------------------------------------------------------------- Das Terminal muss per Setup eingestellt werden. Bei DEC Terminals geht das in der Regel durch Druck auf die Taste F3. Der Rest ist menuegefuehrt - Speichern nicht vergessen! --------------------------------------------------------------------------- (c) BNews lokal oder im Pfad --------------------------------------------------------------------------- Ist es lokal im Einsatz, hilft entweder nur patchen (entfernen von "& 0x7F" aus den Quellen) oder Patches des Binaries oder Installation von z. B. CNews. Ist BNews auf einem Rechner im Pfad im Einsatz, hilft nur das Aufspueren des entsprechenden Rechners und der Versuch den dortigen System-Admin zu bitten entweder zu patchen oder neu zu installieren. Alternativ kann man auch versuchen, sich andere Feeds fuer News zu suchen, die keine "Steinzeit-Software" fahren... --------------------------------------------------------------------------- (d) 7-bit tty --------------------------------------------------------------------------- Manche ttys sind default-maessig auf 7-bit eingestellt. Da hilft meist BSD : stty pass8 System V: stty -istrip -8 Suns "moegen" in ihrer /etc/gettytab statt "ap" den Eintrag "p8" Manche ttys sollen auch "-even -odd" benoetigen... --------------------------------------------------------------------------- (e) auf 7-bit eingestellte Shell --------------------------------------------------------------------------- Abhilfe durch: setenv LC_CTYPE iso_8859_1 oder LC_CTYPE=iso_8859_1 ; export LC_CTYPE --------------------------------------------------------------------------- (f) less --------------------------------------------------------------------------- Abhilfe durch: setenv LESSCHARSET latin1 oder LESSCHARSET=latin1 ; export LESSCHARSET --------------------------------------------------------------------------- (g) nn --------------------------------------------------------------------------- Man schreibe am besten in die init-Datei der nn-Installation (je nach Installation z. B. "/usr/local/lib/nn/init") set data-bits 8 Wer dafuer keine Privilegien hat, kann das auch in die Datei "~/.nn/init" schreiben. Dann gilt es nur fuer diesen Benutzer. Es gibt fuer 7-bit Terminal Benutzer einen Patch fuer nn, der iso2asc von Markus Kuhn verwendet um z. B. Umlaute zu konvertieren. --------------------------------------------------------------------------- (h) rlogin mit 7-bit --------------------------------------------------------------------------- Abhilfe durch: rlogin -L oder rlogin -8 --------------------------------------------------------------------------- (h) emacs (ab Version 19) --------------------------------------------------------------------------- Man schreibe am besten in die Datei ".../site-lisp/default.el" (standard-display-european 1) und (require 'iso-syntax) Wenn das nicht geht, sollte das in die Datei ~/.emacs geschrieben werden. Folgende Zeilen sollen die Eingabe (von Umlauten etc.) erleichtern: (set-input-mode (car (current-input-mode)) (nth 1 (current-input-mode)) 0) Ab der Version 19.26 beachtet emacs die Enviroment-Variable LC_CTYPE. Die oben angegebenen Zeilen sind dann nicht mehr notwendig. =========================================================================== Anhang F: ISO 8859 Fonts =========================================================================== ISO 8859 Codepages fuer MS-DOS ftp.uni-erlangen.de:pub/doc/ISO/charsets/isocp*.zip ISO 8859 fonts fuer EGA/VGA (z. B. fuer U*IX auf PC) ftp.uni-erlangen.de:pub/doc/ISO/charsets/isof*.tar.gz Es gibt sicher auch einen Haufen an ISO 8859 fonts z. B. fuer X, aber die Server sind mir nicht bekannt. Bitte macht mich hier schlau. Ich erweitere diese Liste nur zu gerne. =========================================================================== Anhang G: ISO 8859-1 Gueltigkeitsbereiche =========================================================================== Alle ISO 8859 Zeichenkodierungen haben folgende Dinge gemeinsam: Die Kodes 00-1F und 7F-9F sind Steuerkodes bzw. undefiniert. Die Kodes 20-7F sind identisch mit den Kodes 20-7F in ISO 646 (IRV). Die Kodes A0 (NO-BREAK SPACE) und AD (SOFT HYPHEN) sind allen gemeinsam. Diesen Kodes haben eine besondere Bedeutung und sollten in Editoren Anwendungen finden (koennen). --------------------------------------------------------------------------- ISO 8859-1 aka ECMA-94 aka LATIN ALPHABET No. 1 --------------------------------------------------------------------------- Die folgenden Sprachen werden durch ISO 8859-1 unterstuetzt: Daenisch, Deutsch, Englisch, Faeroese, Finnisch, Franzoesisch, Hollaendisch, Irisch, Islaendisch, Italienisch, Norwegisch, Portugiesisch, Spanisch und Schwedisch. =========================================================================== Anhang P: ISO 8859-1 Peripherie etc. =========================================================================== Die folgenden drei Listen sind absolut unvollstaendig. Bitte schickt mir an Informationen, was ihr habt. Danke! --------------------------------------------------------------------------- Betriebssysteme und Oberflaechen, die ISO 8859-1 direkt unterstuetzen --------------------------------------------------------------------------- AIX?, Acorn RISC-OS, Amiga-OS, DEC ULTRIX, Linux, Microsoft Windows, Microsoft Windows NT, OpenVMS, Sun OS, VAX/VMS, X11 --------------------------------------------------------------------------- Terminals, die ISO 8859-1 direkt unterstuetzen --------------------------------------------------------------------------- DEC VT2xx[1], DEC VT3xx, DEC VT4xx, DEC VT1xxx --------------------------------------------------------------------------- Drucker, die ISO 8859-1 direkt unterstuetzen --------------------------------------------------------------------------- DEClaser xxxx, DEC LA xx, DEC LA xxx, DEC LN03[1], HP DeskJet, HP LaserJet (II und neuer), Kyocera F-xxx, Kyocera F-xxxx [1] unterstuetzt nur DEC MCS (Untermenge von ISO 8859-1) [ Ein Absatz zum Thema ISO 8859-1 und Adobe PostScript wurde mir freundlicherweise ueberlassen. Ich werde ihn einflechten, sobald ich die Zeit dazu finde. ] =========================================================================== Anhang T: ISO 8859 Tools zur Konvertierung von Zeichenkodierungen =========================================================================== transtab ANSI-C Quellen fuer einen Zeichenkodierungskonvertergenerator Enthaelt Klartextbeschreibungen fuer ueber 65 Zeichensaetze. ftp.uni-erlangen.de:pub/doc/ISO/charsets/trans100.tar.gz GNU-recode GNU Konverter, basiert jetzt auf RFC-1345. ftp.cs.tu-berlin.de:pub/gnu/recode-3.3.tar.gz tcs translate character set - Plan 9 utility research.att.com:dist/tcs.shar.Z iso2asc Programm zur Wandlung von ISO 8859-1 Zeichen in eine 7bit US-ASCII Ersatzdarstellung (z. B. "ae"). ftp.uni-erlangen.de:pub/doc/ISO/charsets/iso2asc.c und ftp.uni-erlangen.de:pub/doc/ISO/charsets/iso2asc.txt konvers.el Konvertierung zwischen TeX-Schreibweise und ISO 8859-1 fuer EMACS ftp.uni-erlangen.de:pub/doc/ISO/charsets/konvers-*.tar.gz Randbemerkung: tcs und Recode lassen sich nur mit hohem Aufwand unter MS-DOS uebersetzen und benoetigen unangenehm viel Arbeitsspeicher. =========================================================================== Anhang Z: Zeichenkodierungsbeschreibung ISO 8859-1 (Kodes A0 bis FF) =========================================================================== Die Zeichenkodes 20 bis 7E sind identisch mit ISO 646.IRV (US-ASCII). Eine Auflistung dieser Zeichen kann ich mir (hoffentlich) sparen... ;) Die Zeichenkodes 00 bis 1F und 7F bis 9F sind in ISO 8859-1 nicht als druckbare Zeichen deklariert. Ich habe diese Zeichen daher nicht in diese Liste aufgenommen. Die "Syntax" der Liste ist: Hex 8bit ISO/IEC 10646-1:1993(E) Code Zeichen Zeichenname A0   NO-BREAK SPACE A1 ¡ INVERTED EXCLAMATION MARK A2 ¢ CENT SIGN A3 £ POUND SIGN A4 ¤ CURRENCY SIGN A5 ¥ YEN SIGN A6 ¦ BROKEN BAR A7 § SECTION SIGN A8 ¨ DIAERESIS A9 © COPYRIGHT SIGN AA ª FEMININE ORDINAL INDICATOR AB « LEFT-POINTING DOUBLE ANGLE QUOTATION MARK AC ¬ NOT SIGN AD ­ SOFT HYPHEN AE ® REGISTERED SIGN AF ¯ MACRON B0 ° DEGREE SIGN B1 ± PLUS-MINUS SIGN B2 ² SUPERSCRIPT TWO B3 ³ SUPERSCRIPT THREE B4 ´ ACUTE ACCENT B5 µ MICRO SIGN B6 ¶ PILCROW SIGN B7 · MIDDLE DOT B8 ¸ CEDILLA B9 ¹ SUPERSCRIPT ONE BA º MASCULINE ORDINAL INDICATOR BB » RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK BC ¼ VULGAR FRACTION ONE QUARTER BD ½ VULGAR FRACTION ONE HALF BE ¾ VULGAR FRACTION THREE QUARTERS BF ¿ INVERTED QUESTION MARK C0 À LATIN CAPITAL LETTER A WITH GRAVE C1 Á LATIN CAPITAL LETTER A WITH ACUTE C2 Â LATIN CAPITAL LETTER A WITH CIRCUMFLEX C3 Ã LATIN CAPITAL LETTER A WITH TILDE C4 Ä LATIN CAPITAL LETTER A WITH DIAERESIS C5 Å LATIN CAPITAL LETTER A WITH RING ABOVE C6 Æ LATIN CAPITAL LIGATURE AE C7 Ç LATIN CAPITAL LETTER C WITH CEDILLA C8 È LATIN CAPITAL LETTER E WITH GRAVE C9 É LATIN CAPITAL LETTER E WITH ACUTE CA Ê LATIN CAPITAL LETTER E WITH CIRCUMFLEX CB Ë LATIN CAPITAL LETTER E WITH DIAERESIS CC Ì LATIN CAPITAL LETTER I WITH GRAVE CD Í LATIN CAPITAL LETTER I WITH ACUTE CE Î LATIN CAPITAL LETTER I WITH CIRCUMFLEX CF Ï LATIN CAPITAL LETTER I WITH DIAERESIS D0 Ð LATIN CAPITAL LETTER ETH D1 Ñ LATIN CAPITAL LETTER N WITH TILDE D2 Ò LATIN CAPITAL LETTER O WITH GRAVE D3 Ó LATIN CAPITAL LETTER O WITH ACUTE D4 Ô LATIN CAPITAL LETTER O WITH CIRCUMFLEX D5 Õ LATIN CAPITAL LETTER O WITH TILDE D6 Ö LATIN CAPITAL LETTER O WITH DIAERESIS D7 × MULTIPLICATION SIGN D8 Ø LATIN CAPITAL LETTER O WITH STROKE D9 Ù LATIN CAPITAL LETTER U WITH GRAVE DA Ú LATIN CAPITAL LETTER U WITH ACUTE DB Û LATIN CAPITAL LETTER U WITH CIRCUMFLEX DC Ü LATIN CAPITAL LETTER U WITH DIAERESIS DD Ý LATIN CAPITAL LETTER Y WITH ACUTE DE Þ LATIN CAPITAL LETTER THORN DF ß LATIN SMALL LETTER SHARP S E0 à LATIN SMALL LETTER A WITH GRAVE E1 á LATIN SMALL LETTER A WITH ACUTE E2 â LATIN SMALL LETTER A WITH CIRCUMFLEX E3 ã LATIN SMALL LETTER A WITH TILDE E4 ä LATIN SMALL LETTER A WITH DIAERESIS E5 å LATIN SMALL LETTER A WITH RING ABOVE E6 æ LATIN SMALL LIGATURE AE E7 ç LATIN SMALL LETTER C WITH CEDILLA E8 è LATIN SMALL LETTER E WITH GRAVE E9 é LATIN SMALL LETTER E WITH ACUTE EA ê LATIN SMALL LETTER E WITH CIRCUMFLEX EB ë LATIN SMALL LETTER E WITH DIAERESIS EC ì LATIN SMALL LETTER I WITH GRAVE ED í LATIN SMALL LETTER I WITH ACUTE EE î LATIN SMALL LETTER I WITH CIRCUMFLEX EF ï LATIN SMALL LETTER I WITH DIAERESIS F0 ð LATIN SMALL LETTER ETH F1 ñ LATIN SMALL LETTER N WITH TILDE F2 ò LATIN SMALL LETTER O WITH GRAVE F3 ó LATIN SMALL LETTER O WITH ACUTE F4 ô LATIN SMALL LETTER O WITH CIRCUMFLEX F5 õ LATIN SMALL LETTER O WITH TILDE F6 ö LATIN SMALL LETTER O WITH DIAERESIS F7 ÷ DIVISION SIGN F8 ø LATIN SMALL LETTER O WITH STROKE F9 ù LATIN SMALL LETTER U WITH GRAVE FA ú LATIN SMALL LETTER U WITH ACUTE FB û LATIN SMALL LETTER U WITH CIRCUMFLEX FC ü LATIN SMALL LETTER U WITH DIAERESIS FD ý LATIN SMALL LETTER Y WITH ACUTE FE þ LATIN SMALL LETTER THORN FF ÿ LATIN SMALL LETTER Y WITH DIAERESIS -- kosta@live.robin.de or kosta@blues.sub.de Kosta Kostis, Talstr. 25, D-63322 Rödermark, Germany Tourdates: 17.12.94 und 31.12.94 im Irish Pub "An Sibin", Landgraf Georg Str. 25, D-64283 Darmstadt