[Tustep-Liste] Wortliste des Deutschen
Günter Tomaselli
tomaselli at rz.uni-leipzig.de
Do Apr 27 13:48:45 CEST 2017
Als Listenleser ist mir das Leipziger Wörtersammelprojekt eingefallen: Man
hat über Jahre Texte erfasst und Wörter in ihrer Umgebung nach Häufigkeit
untersucht. Ein Korpus von 300 Mio. Wörtern (oder mehr) ist eingegangen. Man
könnte also trennungskritische Wörter mit verschiedenen Fugenmorphemen
suchen und würde bei Auftreten bzw.Nichtauftreten auf Richtigkeit schließen.
Genaueres siehe
http://corpora.informatik.uni-leipzig.de/de?corpusId=eng-uk_web_2002.
Unter dem Autor Horst Rothe verbirgt sich auch ein
Sprachverarbeitungsprogramm bzw. -lernprogramm, das Silbentrennung kann. Bei
Betrieb hat er 230 Kombinationen drin. Bei Suche nach dem Namen kommt man
auf seine Veröffentlichungen - allerdings hat er keine Lust angedeutet, noch
auf einem anderen Gebiet aktiv zu werden :- )
Dr. Günter Tomaselli
Universität Leipzig, URZ
04109 Leipzig
Ritterstr. 12 / Augustusplatz 10
Tel. 0341 97 333 02
-----Ursprüngliche Nachricht-----
Von: tustep-liste-bounces at lists.uni-wuerzburg.de
[mailto:tustep-liste-bounces at lists.uni-wuerzburg.de] Im Auftrag von
Schneider, Matthias
Gesendet: Donnerstag, 27. April 2017 11:44
An: tustep-liste at itug.de
Betreff: [Tustep-Liste] Wortliste des Deutschen
Diskussionsforum Tustep-Liste
Weitere Informationen: www.itug.de
------------------------------------------------------------
Liebe Listenleser,
im Rahmen einer Wörterbuchauszeichnung wäre es hilfreich, eine Wortliste des
Deutschen zu haben, die Wortansetzungen in den verschiedenen
Deklinationsvarianten enthält,[1] möglichst umfangreich und qualitativ
hochwertig ist, bspw. um verkürzt angesetzte Komposita weitgehend
automatisch zu ergänzen.
Im fraglichen Wörterbuch finden sich z.B. Ansetzungen wie:
"BETRIEB-. ca. 470 zuss. mit betrieb m., meist zu 1 und 3; überwiegend mit
fugenelement: -anleitung f. (zu 1): [...]"
Da im Text nicht explizit angegeben wird, welches Kompositum mit welchem
Fugenelement (hier natürlich 's') gebildet wird, ist ein rein automatischer
Zusammenbau ohne Kontrollinstanz zu fehleranfällig. Daher dachte ich an
einen Abgleich der maschinell erzeugten Zusammensetzungen mit einer
Wortliste wie oben beschrieben, u.U. in Verbindung mit einer
parametrisierbaren Unschärfe über die Levensthein-Distanz und anschließender
manueller Kontrolle von Zweifelsfällen.
Vielleicht hat jemand von Ihnen/von Euch Tipps bzgl. einer entsprechenden
Liste oder auch zum generellen Vorgehen? Trennlisten des Deutschen für das
#SATZ-Programm, die mir vorliegenden, sind mit rund 28.000 enthaltenen
Wörtern im Umfang vermutlich etwas zu klein für den angestrebten Zweck...
Vielen Dank und beste Grüße in die Runde Matthias Schneider
[1] Konjugationsvarianten sind aufgrund des Anwendungszwecks weniger
relevant.
====================================================
| Matthias Schneider, M.A.
|__Kompetenzzentrum für elektronische Erschließungs-
| und Publikationsverfahren in den
| Geisteswissenschaften
|__Trier Center for Digital Humanities
|__Universität Trier
|__DM 341
|__Mail: schneiderm at uni-trier.de
|__Homepage:
| http://www.kompetenzzentrum.uni-trier.de
| http://www.m-schneider.eu
|__twitter: @ms91tru, @museumdighum
|__Telephon:
| + 49 651 201 2935
====================================================
------------------------------------------------------------
Tustep-Liste at itug.de
https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste
Mehr Informationen über die Mailingliste Tustep-Liste