[Tustep-Liste] Satz von Unicode-Dateien

Di Okt 28 22:20:32 CET 2003

> es ist ja schon lange möglich, mit TUSTEP auch UniCode-Dateien zu
> bearbeiten.
> 
> Weiß vielleicht jemand, ob es Möglichkeiten es gibt, UniCode-Dateien
> damit auch zu setzen? - Zumindest für europäische Schriften.

Ja, aber mit gewissen Einschränkungen. Wie Sie sicher wissen, kann
Umwandle Dateien auf den Formaten UTF-8 und UTF-16 in das TUSTEP-eigene
Format von Zeichenkodierungen überführen. Das gilt für die meisten
"üblichen" europäischen Schriften wie Latein, Griechisch, Kyrillisch und
auch Hebräisch und Arabisch. Mit diesen Schriften kann das Satzprogramm
dann in den meisten Fällen relativ problemlos umgehen.

Das gleiche geht nicht ohne Handarbeit für die meisten Schriften
außerhalb des europäisch-mediterranen Raumes (z. B. nicht für die
indischen Schriften und für die chinesischen Zeichen). Diese Zeichen
werden zwar auch übernommen (z. B. als #[3041] für HIRAGANA LETTER SMALL
A), aber das Satzprogramm kann damit zunächst einmal nichts anfangen.

Anders gesagt: solange ein Unicode-Zeichen bzw. eine Sequenz von
Unicode-Zeichen eindeutig auf ein oder mehrere Zeichen in
TUSTEP-Zeichenkodierungen abgebildet werden kann, ist die Welt in
Ordnung und das Satzprogramm abstrahiert weitestgehend von der Frage,
welche Zeichen in PostScript-Fonts diesem TUSTEP-Zeichen entsprechen.
Will ich z. B. ein kleines Alpha (0x03B1) auf Papier bringen, so erzeugt
#umwandle korrekt #g+a#g- und das Satzprogramm wählt ein geeignetes
Zeichen aus einem geeigneten Font aus, um es darzustellen, ohne dass es
mich als Nutzer zu interessieren bräuchte, um welches Zeichen in welchem
Font es sich genau handelt.

> 
> Der mir bekannte Weg ist, die einzelnen 'Sonder'Zeichen aus den oberen
> Bereichen des Unicode (oberhalb von ISO-8859, ab #[0100]) für das
> Satzprogramm wieder in die TUSTEP-eigenen Zeichenteile, Grundzeichen
> und Diakritika, zu zerlegen - sofern sie auf diese Weise darstellbar
> sind.
> 
> - Bei vielen Zeichen des Unicode - nicht nur aus dem Bereich der
> selbstdefinierten - ist eine solche Zerlegung aber nicht möglich. In
> den üblichen PostScript-Fonts (Type-1) ist das Zeichen aber auch nicht
> zu finden.  Sind das sehr viele, bedeutet das: Anlegen einer oder mehrer
> Type-1-Fonts mit 'Sonderzeichen' aus dem UniCode-Font, die dann über die in
> #SATZ vorgesehenen Mechanismen angesprochen werden; wobei diese Zeichen in
> dem Ursprungsfont ja schon vorhanden wären, und dort auf Systemebene auch
> direkt anzusprechen.
> 

An seine Grenzen stößt das Verfahren dann, wenn man entweder Zeichen
oder gar Schriften verarbeiten will, die das Satzprogramm von Hause aus
nicht kennt (z. B.  eines der vielen kyrillischen Zeichen Zentralasiens)
oder aber man genauere Kontrolle über die Fonts braucht (etwa weil man
einen PostScript-Font verwenden will, den TUSTEP von Hause aus nicht
kennt und der eine nicht-standardisierte Belegung hat). Dann bleibt in
der Tat nichts anderes übrig, als die Zuordnung Unicode-Zeichen -->
PS-Font + Zeichenposition selbst festzulegen, etwa mit einem geeigneten
#kopiere im Vorfeld. Das kann bei u. U. recht müsam und zeitaufwändig
sein, zumal man ggf. im Vorfeld Fonts in eine Kollektion von
8-Bit-PS-Fonts aufspalten (oder über gründliche PS-Kenntnisse
verfügen) muss.  Das sollte aber bei "üblichen" europäischen Zeichen die
Ausnahme sein.

Mit freundlichen Grüßen,

Marc Küster

> Sollte jemand dieses Problem für sich schon gelöst haben, wäre ich
> Ihm oder Ihr sehr dankbar für den einen oder anderen Hinweis.
> 
> Mit einem herzlichen Gruß
> an alle Teilnehmer, Ihr
> 
> Hans Derkits
> 
> ------------------------------------------------------------
> Tustep-Liste at itug.de
> https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste

-- 
*************************
Marc Wilhelm Küster
Saphor GmbH

Fronländer 22
D-72072 Tübingen

Tel.: (+49) / (0)7472 / 949 100
Fax: (+49) / (0)7472 / 949 114

E-Mail: kuester at saphor.net
Web: http://www.saphor.net