[Tustep-Liste] Sonderzeichen « » finden & ersetzen

Mi Jun 22 16:31:04 CEST 2016

Lieber Herr Neumann,
im Grundsatz, denke ich, hat Peter Stahl Recht: Um am Ende saubere Daten zu haben, wird es unvermeidlich sein, die Qualität der OCR-Rozedur durch eine Korrekturlese-Prozedur zu ergänzen. Trotzdem kann man sich das Leben vermutlich etwas vereinfachen. Denn bei all diesen unliebsamen Zeichen handelt es sich nicht einfach um Datenmüll, der ausgetauscht oder entfernt gehört. Vielmehr handelt es sich um Lesefehler des OCR-Programms, und man kann sich überlegen, in welchem Ausmaß diese Fehler systematische Fehler sind. Ihr Beispiel lässt vermuten, dass "ei»" anstelle von "ein" gelesen wurde, dieses doppelte Anführungszeichen also ein "n" wiedergeben soll, Ihr anderes dopppeltes Anführungszeichen möglicherweise ein "u". Man könnte daher 'vorsichtig' austauschen, d.h. unter Berücksichtigung der Umgebung, und zunächst immer, wenn im Text "ei»"+Vokal oder +Blank erscheint, daraus ein "ein" machen und dadurch erreichten Textstand anschließend neu bewerten; vielleicht sind ja schon 60% des 'Mülls' verschwunden!
Viele Erfolg --- und schöne Grüße an alle OCR-Geschädigten
Karlheinz Hülser

-----Original-Nachricht-----
Betreff: [Tustep-Liste] Sonderzeichen « » finden & ersetzen
Datum: 2016-06-19T12:06:33+0200
Von: "Dr. Thomas Neumann" <tho.neumann at gmx.de>
An: "tustep-liste at lists.uni-wuerzburg.de" <tustep-liste at lists.uni-wuerzburg.de>

Diskussionsforum Tustep-Liste
Weitere Informationen: www.itug.de
------------------------------------------------------------

Hallo Kollegen,

das Problem: Durch OCR erkannte Texte, die über #umwandle usw. in die 
Arbeitsdatei gekommen sind, enthalten "Datenmüll", also nicht gewünschte 
Zeichen wie z. B. "«" oder "»", die als Wortbestandteile nach der OCR 
auftauchen: z. B. "ei»" 
Diese könnten zwar im vorherigen Schritt in einem externen Editor ersetzt 
werden - wurden sie aber nicht und liegen jetzt in hunderten Seiten in 
den Tustep-Dateien. 
Wie kann ich "falsche" Daten in einer Datei finden?
Danke im voraus in die Runde.
Ihr
Thomas Neumann

-------------------------------------
  Dr. Thomas Neumann
    Greutweg 43
    73733 Esslingen
-------------------------------------
    mail tho.neumann at gmx.de
    fax +4932121431182
-------------------------------------
    www.caroline-fouque.de
    www.hoererlebnis.de
-------------------------------------

------------------------------------------------------------
Tustep-Liste at itug.de
https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste