[Tustep-Liste] Unicode-Zeichen im Tustep-Pdf?

Martin Schubert martin.schubert at uni-due.de
Mo Aug 15 09:36:01 CEST 2022


Lieber Herr Ott,

ganz vielen Dank für Ihre ausführliche Antwort, die Erläuterungen und 
Anlagen. In der Tat haben Sie meine undeutliche Frage perfekt 
durchschaut; es ging da um die Nutzbarkeit der pdf-Dateien, also solche 
Punkte wie Durchsuchbarkeit. Jetzt werde ich mich mit #*PRECOMPOSED 
beschäftigen, das ich noch nie eingesetzt habe - ich sehe aber schon, 
dass es das Ziel meiner Suche birgt.
Herzlichen Dank und die allerbesten Grüße
von

Martin Schubert

Am 12.08.2022 15:43, schrieb Wilhelm Ott:
> Lieber Herr Schubert,
> 
> der von Ihnen zitierte Verlagsvertreter hat in einer mit
> TUSTEP-Mitteln vorbereiteten PDF-Datei Mängel bei der Einbindung
> von "dem Mittelhochdeutschen eigenen Glyphen (bspw. ſ, ʒ oder ů)"
> festgestellt.
> 
> PDF-Dateien, die mit #SATZ und #*PSAUS vorbereitet werden,
> entstehen durch Umwandlung der dabei erzeugten PostScript-Dateien
> (mit Hilfe von Werkzeugen außerhalb von TUSTEP) nach PDF.
> 
> Diese PDF-Dateien dienen in der Regel zur Publikation der darin
> enthaltenen Daten per Buchdruck oder durch ihre Bereitstellung
> direkt online im Netz.
> 
> Für die Druckausgabe dürfte der oben angesprochene Mangel irrelevant
> sein: Sie schreiben ja, "Sonderzeichen sehen in Tustep toll aus".
> 
> Deshalb vermute ich, dass die beschriebenen Mängel beim direkten
> Zugriff auf die PDF-Dateien auftreten und z.B. das Suchen nach Wörtern,
> die solche Zeichen enthalten, erschweren oder nicht möglich machen.
> 
> Um dies zu verhindern, müssen bei der Vorbereitung solcher Dateien
> mit #SATZ und #*PSAUS zwei Bedingungen erfüllt werden:
> 
> 1. Die benutzten Fonts müssen die betreffenden Sonderzeichen und
> "precomposed characters", bei denen Grundbuchstabe und diakritische
> Zeichen bereits kombiniert sind, enthalten.
> Von den in #SATZ ohne Angabe zur Spezifikation SCHRIFTEN
> verfügbaren Fonts trifft dies nur auf die Font-Familien
> TusLibertine und TusBiolinum (Font-Nummern 32001 bis 32613) zu.
> 
> 2. Die zur Umwandlung nach PDF benutzte PS-Datei muss mit dem
> Makro #*PRECOMPOSED überarbeitet werden: das TUSTEP-Satzprogramm
> arbeitet mit fliegenden Akzenten, die mit entsprechenden
> Anweisungen über oder unter einen in der Regel zuvor ausgegebenen
> Buchstaben positioniert werden. #*PRECOMPOSED wandelt die PostScript-
> Befehle zur Kombination von mehreren Zeichen (Buchstabe + ein oder
> mehrere Diacritica) in die Befehle zur Ausgabe des entsprechenden
> "precomposed characters" um.
> 
> Als Alternative ist von #SATZ vorgesehen, dass man solche
> Zeichen direkt über deren Namen im verwendeten Font angibt
> (Handbuch unter "12.8.4. Zeichenadressierung über Zeichennamen").
> Diese Zeichen werden wie die  mit #*PRECOMPOSED umgewandelten
> Zeichen mit "glyphshow" in die PS-Datei ausgegeben.
> 
> (Welche Zeichen mit welchen Namen in einem Font überhaupt
> vorhanden sind und welchen Dicktenwert sie haben, kann auch mit
> dem Makro #*PSGLYPHS festgestellt werden.)
> 
> Bei #*PRECOMPOSED wird (wenn dies nicht mit "LISTE=-" beim Aufruf
> unterdrückt wird) am Ende der PDF-Datei eine Liste aller mit
> glyphshow ausgegebenen Zeichen erstellt, die nicht nur die Namen
> der betreffenden Zeichen, sondern auch die Form dieser Zeichen
> selbst enthält. Diese Liste sollte vor der Weitergabe der PDF-Datei
> sorgfältig kontrolliert werden, vor allem, wenn beim Satz
> andere als die oben genannten Fonts benutzt werden: nicht alle
> Open-Type-Fonts verwenden die selben Namen für die darin enthaltenen
> Zeichen oder enthalten einige der von #*PRECOMPOSED vorgesehenen
> Zeichen überhaupt. Und bei der (im angefügten Beispiel in den
> mit 222 und 333 beginnenden Zeilen verwendeten) Kodierung über
> Zeichennamen unterbleibt im Satzprogramm die Prüfung, ob diese Zeichen
> im jeweiligen Font überhaupt vorhanden sind.
> 
> Dies alles hat zwar mit der Frage nach "Unicode-Codierungen in den
> pdfs" nur indirekt zu tun: immerhin kann man aber beim Suchen
> im Acrobat Reader auch mit "\u0064\u0065\u006D" oder mit
> "\u0064\u00E9\u006D" in der angefügten Datei sozpre.pdf suchen
> und erhält die selben Ergebnisse wie bei der Suche nach "dem".
> 
> ------
> 
> Als Anwendungsbeispiel füge ich die Datei sozpdf.tu bei. Dort sind
> neben den in Ihrer mail genannten Zeichen (in TUSTEP-Codierung:
> #.s #.z %*u) in der Quelldatei noch ein paar weitere Zeichen und die
> Verwendung einiger dieser Zeichen innerhalb eines Wortes enthalten.
> Auch die darin erzeugten und nach PDF umgewandelten Ergebnisdateien
> sind beigefügt.
> 
> Die (im Ergebnis von #SATZ) mit 111 beginnende Zeile in scr*q enthält
> diese Zeichen in der normalen TUSTEP-Codierung.
> 
> Die mit 222 beginnende Zeile enthält den selben Text, in dem
> aber die Sonderzeichen und die Zeichen des griechische Wortes
> etwas weniger gut lesbar mit ihrem Namen und ihrem Dicktenwert
> angegeben sind, wobei davon ausgegangen wird, dass diese Zeichen
> aus dem Font übernommen werden sollen, auf den gerade umgeschaltet ist.
> 
> In der mit 333 beginnenden Zeile ist zusätzlich die Font-Nummer
> angegeben, aus der das jeweilige Zeichen übernommen werden soll.
> 
> Die so erzeugten ps-Dateien wurden mit entsprechenden
> (Nicht-Tustep-)Werkzeugen in pdf-Dateien umgewandelt
> (in sozpdf.tu nicht sichtbar).
> 
> Das Ergebnis:
> 
> In den Dateien soz.pdf und sozpre.pdf sollten der Inhalt der
> mit 222 und 333 beginnenden Zeilen (bis auf diese Nummern)
> identisch sein.
> 
> Die Suche sollte nach den von Acrobat Reader gewohnten Regeln
> funktionieren: bei der Suche nach "dum" bzw. "dem" werden in
> sozpre.pdf dům und dém in allen drei Zeilen gefunden, in soz.pdf
> nur in den Zeilen 222 und 333; duͦm (d#;oum) wird in Zeile 111
> mit Suche nach "du o m" gefunden (übergesetzte Buchstaben
> werden in #*PRECOMPOSED nicht umcodiert), in Zeile 222 und 333
> mit "du\u0366m". ſ wird bei der Suche nach "s" gefunden,
> ʒ und Ʒ bei der Suche nach "\u01B7" oder "\u0292" usw.
> 
> In den Dateien sozof.pdf und sozofpre.pdf, die in den Zeilen
> 203-207 von sozpdf.tu (ohne Font-Angabe) vorbereitet wurden,
> sieht man, dass in der mit 222 beginnenden Zeile einige
> Zeichen fehlen, auch das \u0366, obwohl das betr. Wort bei der
> Suche nach "du\u0366m" gefunden wird. Die Liste auf Seite 2
> von sozofpre.pdf weist die in den jeweiligen Fonts gefundene
> Form aus.
> 
> -------
> 
> Ich hoffe, dass dies zwar nicht die Frage "nach Unicode-Codierungen
> in den pdfs" beantworten, aber doch eine Lösung für das vom
> Verlag angesprochene Problem aufzeigen kann.
> 
> Mit den besten Grüßen
> Wilhelm Ott
> 
> 
> ----------------------------------------------------------------------
> Prof. Dr. Wilhelm Ott 	            phone:  +49-7071-987656
> c/o pagina GmbH                     fax:    +49-7071-987622
> Herrenberger Straße 51              e-mail: 
> wilhelm.ott at uni-tuebingen.de
> D-72070 Tübingen
> 
> 
> On Tue, 2 Aug 2022, Martin Schubert wrote:
> 
>> Date: Tue, 02 Aug 2022 23:38:49 +0200
>> From: Martin Schubert <martin.schubert at uni-due.de>
>> Reply-To: Mailingliste zum Thema TUSTEP <tustep-liste at itug.de>
>> To: Mailingliste zum Thema TUSTEP <tustep-liste at itug.de>
>> Subject: [Tustep-Liste] Unicode-Zeichen im Tustep-Pdf?
>> 
>> Liebe Liste,
>> 
>> Sonderzeichen sehen in Tustep toll aus. Jetzt aber sagt mir ein 
>> Verlagsvertreter zum Pdf: Es "scheinen die dem Mittelhochdeutschen 
>> eigenen Glyphen (bspw. ſ, ʒ oder uͦ) nicht als Unicode-Zeichen (bzw. 
>> kombinierende Unicode-Zeichen) eingebunden zu sein." Ich deute das so, 
>> dass der Verlag für die digitale Nutzung gerne Unicode-Codierungen in 
>> den pdfs haben möchte; ich habe aber nichts dazu finden können. Weiß 
>> irgendjemand, ob das überhaupt geht?
>> Zum Glück hat sich meine vorige Frage, nach Spatien in falscher 
>> Drucktype, als Irrtum andererseits herausgestellt und somit in Luft 
>> aufgelöst. Hoffen wir also das Beste! Vielen Dank und viele Grüße
>> von
>> 
>> Martin Schubert
>> 
>> 
>> 
>> -- Tustep-Liste mailing list
>> Tustep-Liste at itug.de
>> https://lists.itug.de/cgi-bin/mailman/listinfo/tustep-liste
>> 
>> 


Mehr Informationen über die Mailingliste Tustep-Liste