[Tustep-Liste] Unicode-Zeichen im Tustep-Pdf?

Fr Aug 12 15:43:10 CEST 2022

Lieber Herr Schubert,

der von Ihnen zitierte Verlagsvertreter hat in einer mit
TUSTEP-Mitteln vorbereiteten PDF-Datei Mängel bei der Einbindung
von "dem Mittelhochdeutschen eigenen Glyphen (bspw. ſ, ʒ oder ů)"
festgestellt.

PDF-Dateien, die mit #SATZ und #*PSAUS vorbereitet werden,
entstehen durch Umwandlung der dabei erzeugten PostScript-Dateien
(mit Hilfe von Werkzeugen außerhalb von TUSTEP) nach PDF.

Diese PDF-Dateien dienen in der Regel zur Publikation der darin
enthaltenen Daten per Buchdruck oder durch ihre Bereitstellung
direkt online im Netz.

Für die Druckausgabe dürfte der oben angesprochene Mangel irrelevant
sein: Sie schreiben ja, "Sonderzeichen sehen in Tustep toll aus".

Deshalb vermute ich, dass die beschriebenen Mängel beim direkten
Zugriff auf die PDF-Dateien auftreten und z.B. das Suchen nach Wörtern,
die solche Zeichen enthalten, erschweren oder nicht möglich machen.

Um dies zu verhindern, müssen bei der Vorbereitung solcher Dateien
mit #SATZ und #*PSAUS zwei Bedingungen erfüllt werden:

1. Die benutzten Fonts müssen die betreffenden Sonderzeichen und
"precomposed characters", bei denen Grundbuchstabe und diakritische
Zeichen bereits kombiniert sind, enthalten.
Von den in #SATZ ohne Angabe zur Spezifikation SCHRIFTEN
verfügbaren Fonts trifft dies nur auf die Font-Familien
TusLibertine und TusBiolinum (Font-Nummern 32001 bis 32613) zu.

2. Die zur Umwandlung nach PDF benutzte PS-Datei muss mit dem
Makro #*PRECOMPOSED überarbeitet werden: das TUSTEP-Satzprogramm
arbeitet mit fliegenden Akzenten, die mit entsprechenden
Anweisungen über oder unter einen in der Regel zuvor ausgegebenen
Buchstaben positioniert werden. #*PRECOMPOSED wandelt die PostScript-
Befehle zur Kombination von mehreren Zeichen (Buchstabe + ein oder
mehrere Diacritica) in die Befehle zur Ausgabe des entsprechenden
"precomposed characters" um.

Als Alternative ist von #SATZ vorgesehen, dass man solche
Zeichen direkt über deren Namen im verwendeten Font angibt
(Handbuch unter "12.8.4. Zeichenadressierung über Zeichennamen").
Diese Zeichen werden wie die  mit #*PRECOMPOSED umgewandelten
Zeichen mit "glyphshow" in die PS-Datei ausgegeben.

(Welche Zeichen mit welchen Namen in einem Font überhaupt
vorhanden sind und welchen Dicktenwert sie haben, kann auch mit
dem Makro #*PSGLYPHS festgestellt werden.)

Bei #*PRECOMPOSED wird (wenn dies nicht mit "LISTE=-" beim Aufruf
unterdrückt wird) am Ende der PDF-Datei eine Liste aller mit
glyphshow ausgegebenen Zeichen erstellt, die nicht nur die Namen
der betreffenden Zeichen, sondern auch die Form dieser Zeichen
selbst enthält. Diese Liste sollte vor der Weitergabe der PDF-Datei
sorgfältig kontrolliert werden, vor allem, wenn beim Satz
andere als die oben genannten Fonts benutzt werden: nicht alle
Open-Type-Fonts verwenden die selben Namen für die darin enthaltenen
Zeichen oder enthalten einige der von #*PRECOMPOSED vorgesehenen
Zeichen überhaupt. Und bei der (im angefügten Beispiel in den
mit 222 und 333 beginnenden Zeilen verwendeten) Kodierung über
Zeichennamen unterbleibt im Satzprogramm die Prüfung, ob diese Zeichen
im jeweiligen Font überhaupt vorhanden sind.

Dies alles hat zwar mit der Frage nach "Unicode-Codierungen in den
pdfs" nur indirekt zu tun: immerhin kann man aber beim Suchen
im Acrobat Reader auch mit "\u0064\u0065\u006D" oder mit
"\u0064\u00E9\u006D" in der angefügten Datei sozpre.pdf suchen
und erhält die selben Ergebnisse wie bei der Suche nach "dem".

------

Als Anwendungsbeispiel füge ich die Datei sozpdf.tu bei. Dort sind
neben den in Ihrer mail genannten Zeichen (in TUSTEP-Codierung:
#.s #.z %*u) in der Quelldatei noch ein paar weitere Zeichen und die
Verwendung einiger dieser Zeichen innerhalb eines Wortes enthalten.
Auch die darin erzeugten und nach PDF umgewandelten Ergebnisdateien
sind beigefügt.

Die (im Ergebnis von #SATZ) mit 111 beginnende Zeile in scr*q 
enthält diese Zeichen in der normalen TUSTEP-Codierung.

Die mit 222 beginnende Zeile enthält den selben Text, in dem
aber die Sonderzeichen und die Zeichen des griechische Wortes
etwas weniger gut lesbar mit ihrem Namen und ihrem Dicktenwert
angegeben sind, wobei davon ausgegangen wird, dass diese Zeichen
aus dem Font übernommen werden sollen, auf den gerade umgeschaltet ist.

In der mit 333 beginnenden Zeile ist zusätzlich die Font-Nummer
angegeben, aus der das jeweilige Zeichen übernommen werden soll.

Die so erzeugten ps-Dateien wurden mit entsprechenden
(Nicht-Tustep-)Werkzeugen in pdf-Dateien umgewandelt
(in sozpdf.tu nicht sichtbar).

Das Ergebnis:

In den Dateien soz.pdf und sozpre.pdf sollten der Inhalt der
mit 222 und 333 beginnenden Zeilen (bis auf diese Nummern)
identisch sein.

Die Suche sollte nach den von Acrobat Reader gewohnten Regeln
funktionieren: bei der Suche nach "dum" bzw. "dem" werden in
sozpre.pdf dům und dém in allen drei Zeilen gefunden, in soz.pdf
nur in den Zeilen 222 und 333; duͦm (d#;oum) wird in Zeile 111
mit Suche nach "du o m" gefunden (übergesetzte Buchstaben
werden in #*PRECOMPOSED nicht umcodiert), in Zeile 222 und 333
mit "du\u0366m". ſ wird bei der Suche nach "s" gefunden,
ʒ und Ʒ bei der Suche nach "\u01B7" oder "\u0292" usw.

In den Dateien sozof.pdf und sozofpre.pdf, die in den Zeilen
203-207 von sozpdf.tu (ohne Font-Angabe) vorbereitet wurden,
sieht man, dass in der mit 222 beginnenden Zeile einige
Zeichen fehlen, auch das \u0366, obwohl das betr. Wort bei der
Suche nach "du\u0366m" gefunden wird. Die Liste auf Seite 2
von sozofpre.pdf weist die in den jeweiligen Fonts gefundene
Form aus.

-------

Ich hoffe, dass dies zwar nicht die Frage "nach Unicode-Codierungen
in den pdfs" beantworten, aber doch eine Lösung für das vom
Verlag angesprochene Problem aufzeigen kann.

Mit den besten Grüßen
Wilhelm Ott

----------------------------------------------------------------------
Prof. Dr. Wilhelm Ott 	            phone:  +49-7071-987656
c/o pagina GmbH                     fax:    +49-7071-987622
Herrenberger Straße 51              e-mail: wilhelm.ott at uni-tuebingen.de
D-72070 Tübingen

On Tue, 2 Aug 2022, Martin Schubert wrote:

> Date: Tue, 02 Aug 2022 23:38:49 +0200
> From: Martin Schubert <martin.schubert at uni-due.de>
> Reply-To: Mailingliste zum Thema TUSTEP <tustep-liste at itug.de>
> To: Mailingliste zum Thema TUSTEP <tustep-liste at itug.de>
> Subject: [Tustep-Liste] Unicode-Zeichen im Tustep-Pdf?
> 
> Liebe Liste,
>
> Sonderzeichen sehen in Tustep toll aus. Jetzt aber sagt mir ein 
> Verlagsvertreter zum Pdf: Es "scheinen die dem Mittelhochdeutschen eigenen 
> Glyphen (bspw. ſ, ʒ oder uͦ) nicht als Unicode-Zeichen (bzw. kombinierende 
> Unicode-Zeichen) eingebunden zu sein." Ich deute das so, dass der Verlag für 
> die digitale Nutzung gerne Unicode-Codierungen in den pdfs haben möchte; ich 
> habe aber nichts dazu finden können. Weiß irgendjemand, ob das überhaupt 
> geht?
> Zum Glück hat sich meine vorige Frage, nach Spatien in falscher Drucktype, 
> als Irrtum andererseits herausgestellt und somit in Luft aufgelöst. Hoffen 
> wir also das Beste! Vielen Dank und viele Grüße
> von
>
> Martin Schubert
>
>
>
> -- 
> Tustep-Liste mailing list
> Tustep-Liste at itug.de
> https://lists.itug.de/cgi-bin/mailman/listinfo/tustep-liste
>
>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : sozpdf.tu
Dateityp    : application/octet-stream
Dateigröße  : 4096 bytes
Beschreibung: 
URL         : <http://lists.itug.de/pipermail/tustep-liste/attachments/20220812/891079cb/attachment-0001.obj>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : soz.pdf
Dateityp    : application/pdf
Dateigröße  : 9449 bytes
Beschreibung: 
URL         : <http://lists.itug.de/pipermail/tustep-liste/attachments/20220812/891079cb/attachment-0004.pdf>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : sozpre.pdf
Dateityp    : application/pdf
Dateigröße  : 14767 bytes
Beschreibung: 
URL         : <http://lists.itug.de/pipermail/tustep-liste/attachments/20220812/891079cb/attachment-0005.pdf>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : sozof.pdf
Dateityp    : application/pdf
Dateigröße  : 13964 bytes
Beschreibung: 
URL         : <http://lists.itug.de/pipermail/tustep-liste/attachments/20220812/891079cb/attachment-0006.pdf>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : sozofpre.pdf
Dateityp    : application/pdf
Dateigröße  : 18090 bytes
Beschreibung: 
URL         : <http://lists.itug.de/pipermail/tustep-liste/attachments/20220812/891079cb/attachment-0007.pdf>