[Tustep-Liste] Suchen in PDF-Dateien

Mi Feb 15 19:52:01 CET 2006

Liebe Listenteilnehmer,

hat jemand von Ihnen etwas tiefergehende Erfahrung mit dem
Suchen in (mit TUSTEP und Postscript-Type-1-Schriften her-
gestellten) PDF-Dateien mit Adobe Acrobat? Die Suchmoeglich-
keiten im Acrobat (egal ob Pro oder Reader) scheinen mir
vorderhand ziemlich bescheiden zu sein, z.B. gibt es offen-
bar keine Chance, simple Sonderzeichen wie etwa 'Zirkumflex
auf Buchstaben' zu suchen (im folgenden verwende ich die
TUSTEP-Kodierung anstelle des betr. Sonderzeichens):
- die Suche nach 'bl%<asen' findet zwar alle Vorkommen von
  'blasen', aber das, wonach eigentlich gesucht wird, naem-
  lich das Wort mit dem Zirkumflex, wird *nicht* gefunden;
- ditto natuerlich auch andere Sonderzeichen und Diakritika
  wie %-a, %/u, %?n, #.^a, #.d, #.l, #.^o, #.s usw.;
- erst recht gibt es offenbar keine Moeglichkeit, nach
  Super- und Subskripten wie z.B. 'bl#;eosset' zu suchen.

(Spaetestens an dieser Stelle ist eine Zwischenbemerkung
vonnoeten: Wer die mit Windows XP mitgelieferten Standard-
Truetype-Schriften verwendet, kann das Problem ein wenig
dadurch mildern, dass er im Acrobat unter -> Bearbeiten,
dort -> Grundeinstellungen -> Suchen das als Voreinstel-
lung gesetzte Haekchen bei "Diakritische Zeichen und Ak-
zente ignorieren" entfernt. Resultat: Die Suche nach 'a'
findet alle 'a', auch '%/a', '%\a', '%<a' usw., waehrend
die Suche nach '%<a' *nur* '%<a' findet. Freilich wird
auch dabei ein griechisches Alpha *nicht* gefunden, von
Super- und Subskripten u. dgl. gar nicht zu reden. Wich-
tig ist jedenfalls fuer mein Problem, dass auch diese
Option bei PDF-Dokumenten, die mit TUSTEP und Postscript-
Type-1-Schriften hergestellt wurden, *nichts* bringt.)

Es waere ein Kompromiss, mit dem man vielleicht auskommen
koennte, wenn z.B. die Suche nach den Grundbuchstaben auch
die Formen *mit* Diakritika zutage foerderte - aber auch da
ist (leider) Fehlanzeige. Ich waere evtl. auch damit zu-
frieden, wenn meine Suchanfrage maskiert (und die Sonder-
zeichen auf eine Grundform) reduziert wuerden, so dass
die Sonderzeichen *und* ihre Grundform gefunden wuerden -
aber auch diese Erwartung wird herb enttaeuscht. Ein wei-
terer vielleicht annehmbarer Kompromiss waere es, wenn man
bei der Suche Wildcards wie '?' und '*' verwenden koennte,
aber - man haelt es kaum fuer moeglich - auch dieses biss-
chen Komfort ist im Acrobat *nicht* realisiert. Vollends
unmoeglich scheint es mir vor dem Hintergrund meines der-
zeitigen Kenntnisstandes zu sein, nach nichtlateinischen
Zeichen, Woertern und Textteilen zu suchen. Ich wuerde
mir - dies als vorlaeufig letzte Moeglichkeit - sogar die
Muehe machen, der betr. Wortform im Text nach Art von XML
eine normalisierte Wortform zu unterlegen, aber nicht ein-
mal das scheint zu gehen. Oder habe ich etwas uebersehen?

Ich mag mir kaum vorstellen, dass ich der einzige/erste
bin, der dieses Problem hat bzw. dass es noch nicht geloest
sein soll. (Oder sollte der Acrobat in Griechenland, Israel
und Russland nicht im Einsatz sein? ;o)) Die Einschraenkun-
gen bei der Benutzung von PDF-Dokumenten, die auf diese
Weise produziert wurden, waeren zweifellos erheblich.
Weiss jemand Rat, wie diese Schwierigkeiten geloest oder
gemildert werden koennen?

Viele Gruesse reihum von

Michael Trauth

---------------------------------------------------------------
Dr. Michael Trauth                  e-mail: trauth at uni-trier.de
Rechenzentrum                       office: Tel. 0651-201-3413
der Universitaet                            Fax  0651-201-3921
Universitaetsring                secretary: Tel. 0651-201-3417
D-54286 Trier
---------------------------------------------------------------