[Tustep-Liste] Aus 2 mach 1

stahl at germanistik.uni-wuerzburg.de stahl at germanistik.uni-wuerzburg.de
Do Sep 23 10:45:23 CEST 2004


Lieber Herr Schubert,

> aus einer Textdatei die vorhandene Zeichensetzung in eine
> andere Textdatei übertragen, welche den gleichen Text (ohne Punkt und
> Komma) in einer anderen Graphie enthält.

Ich habe dazu zwei Beispiel-Textdateien angelegt mit den Namen T1 und T2
(mit der Zählung 1.1, 1.2 ...).

T1 enthält:
Diez ißt ain klainer Tekst
mit tzwai drai zusätzlihen
Satzzaichen In ainer
Zaile stäht viehlleicht
auch ain Dobbelpunkt
Ende      

und T2 enthält:
Dies ist ein kleiner Text
mit zwei, drei zusätzlichen
Satzzeichen. In einer
Zeile steht vielleicht
auch ein Doppelpunkt:
Ende.

Nun soll also die Zeichensetzung aus T2 in T1 eingesetzt werden.
Dafür werden in T2 vor den Satzzeichen Blanks eingesetz, um daraufhin
die beiden Dateien zu vergleichen. Die Blanks werden jetzt als zusätzliche
Informationen in einer Korrekturdatei festgehalten. Da dort nur die
Korrekturanweisungen interessieren, die sich auf Zusätze beziehen, also
mit einem Plus-Zeichen markiert sind, werden allein diese Stellen
für ein Korrektur-Ausführe weiterverarbeitet. Mit einem anschließendem
Kopiere werden die Blanks wieder entfernt und Sätze mit Unterscheidungsnummer 
zu einem Dateisatz zusammengefasst.

Die komplette Tue-Datei sieht dann so aus:
#----- schnipp -----------------------------------------
#dat,t1.neu't2.neu't3'korr'korr2,frag=-

#kop,t2,t2.neu,-,-,*
          Satzzeichen als Zeichengruppe definieren
>1z       .,:
          vor jedem Satzzeichen einen Blank einsetzen
xx        ->1- >=01-
*eof

#-        Unterschiede als Korrekturdatei
#verg,t1,t2.neu,k,lo=+,ko=korr

#kop,korr,korr2,+,+,*
          nur zusätzliche Stellen übernehmen
zf+       .>/+.
*eof

#-        Korrekturen einsetzen
#ka,t1,t1.neu,loe=+,ko=korr2

#kop,t1.neu,t3,-std-,+,*
          Sätze mit Unterscheidungsnummer zusammensetzen
anr       2
>1z       .,:
          Blank vor eingesetzem Zeichen entfernen
xx        . >1.>=02.
*eof      
#----- schnipp -----------------------------------------

Keine Gedanken hab ich mir zu Anführungszeichen gemacht,
die unmittelbar am Wortanfang bzw. -ende stehen.

Ich hoffe, Sie können etwas damit anfangen.

Viele Grüße
P.Stahl


Mehr Informationen über die Mailingliste Tustep-Liste