[Tustep-Liste] Sonderzeichen « » finden & ersetzen
Peter Stahl
peter.stahl at uni-wuerzburg.de
Di Jun 21 15:30:38 CEST 2016
Lieber Herr Neumann,
> das Problem: Durch OCR erkannte Texte, die über #umwandle usw. in die
> Arbeitsdatei gekommen sind, enthalten "Datenmüll", also nicht gewünschte
> Zeichen wie z. B. "«" oder "»", die als Wortbestandteile nach der OCR
> auftauchen: z. B. "ei»"
> Diese könnten zwar im vorherigen Schritt in einem externen Editor ersetzt
> werden - wurden sie aber nicht und liegen jetzt in hunderten Seiten in
> den Tustep-Dateien.
So wie ich die Sache sehe, können Sie eine Nacharbeit des
OCR-Ergebnisses nicht umgehen. Die Sonderzeichen, die sich
in Ihrer Datei befinden, dürften in erster Linie
#.: und #.;
#.< und #.>
sowie
#[xx]
sein.
Ich würde mir zunächst einen Überblick über die Sonderzeichen
verschaffen und diese dann mit einem geeigneten Austauschen
entschärfen.
Mit besten Grüßen,
P.Stahl
--
Dr. Peter Stahl
Julius-Maximilians-Universität Würzburg
Deutsche Sprachwissenschaft
Am Hubland
D-97074 Würzburg
Tel.: +49 931 31 85 627
Fax: +49 931 31 81 114
E-Mail: stahl at germanistik.uni-wuerzburg.de
Raum: 4.E.4
Sekretariat: Elisabeth Schönig (4.E.12)
Tel.: +49 931 31 85 630
Mehr Informationen über die Mailingliste Tustep-Liste