[Tustep-Liste] Wortliste des Deutschen

Schneider, Matthias schneiderm at uni-trier.de
Mi Mai 3 09:12:53 CEST 2017


Lieber Herr Tomaselli,
lieber Christian,

vielen Dank für die hilfreichen Tipps. Jenseits der Liste haben mich ebenfalls ein paar (spezieller auf das betr. Projekt zugeschnittene) Hinweise erreicht, so dass ich einige Anknüpfungspunkte für die weiteren Versuche habe.

Viele Grüße in die Runde
Matthias Schneider


==================================================== 
|           Matthias Schneider, M.A. 
|__Kompetenzzentrum für elektronische Erschließungs- 
|     und Publikationsverfahren in den 
|     Geisteswissenschaften 
|__Trier Center for Digital Humanities 
|__Universität Trier 
|__DM 341 
|__Mail: schneiderm at uni-trier.de 
|__Homepage: 
|     http://www.kompetenzzentrum.uni-trier.de 
|     http://www.m-schneider.eu 
|__twitter: @ms91tru, @museumdighum
|__Telephon: 
|     + 49 651 201 2935 
====================================================


-----Ursprüngliche Nachricht-----
Von: tustep-liste-bounces at lists.uni-wuerzburg.de [mailto:tustep-liste-bounces at lists.uni-wuerzburg.de] Im Auftrag von Günter Tomaselli
Gesendet: Donnerstag, 27. April 2017 13:49
An: tustep-liste at itug.de
Betreff: Re: [Tustep-Liste] Wortliste des Deutschen

Diskussionsforum Tustep-Liste
Weitere Informationen: www.itug.de
------------------------------------------------------------

Als Listenleser ist mir das Leipziger Wörtersammelprojekt eingefallen: Man hat über Jahre Texte erfasst und Wörter in ihrer Umgebung nach Häufigkeit untersucht. Ein Korpus von 300 Mio. Wörtern (oder mehr) ist eingegangen. Man könnte also trennungskritische Wörter mit verschiedenen Fugenmorphemen suchen und würde bei Auftreten bzw.Nichtauftreten auf Richtigkeit schließen.
Genaueres siehe
http://corpora.informatik.uni-leipzig.de/de?corpusId=eng-uk_web_2002.
Unter dem Autor Horst Rothe verbirgt sich auch ein Sprachverarbeitungsprogramm bzw. -lernprogramm, das Silbentrennung kann. Bei Betrieb hat er 230 Kombinationen drin. Bei Suche nach dem Namen kommt man auf seine Veröffentlichungen - allerdings hat er keine Lust angedeutet, noch auf einem anderen Gebiet aktiv zu werden :- )

Dr. Günter Tomaselli
Universität Leipzig, URZ
04109 Leipzig
Ritterstr. 12 / Augustusplatz 10
Tel. 0341 97 333 02




-----Ursprüngliche Nachricht-----
Von: tustep-liste-bounces at lists.uni-wuerzburg.de
[mailto:tustep-liste-bounces at lists.uni-wuerzburg.de] Im Auftrag von Schneider, Matthias
Gesendet: Donnerstag, 27. April 2017 11:44
An: tustep-liste at itug.de
Betreff: [Tustep-Liste] Wortliste des Deutschen

Diskussionsforum Tustep-Liste
Weitere Informationen: www.itug.de
------------------------------------------------------------

Liebe Listenleser,

im Rahmen einer Wörterbuchauszeichnung wäre es hilfreich, eine Wortliste des Deutschen zu haben, die Wortansetzungen in den verschiedenen Deklinationsvarianten enthält,[1] möglichst umfangreich und qualitativ hochwertig ist, bspw. um verkürzt angesetzte Komposita weitgehend automatisch zu ergänzen. 
Im fraglichen Wörterbuch finden sich z.B. Ansetzungen wie:

"BETRIEB-. ca. 470 zuss. mit betrieb m., meist zu 1 und 3; überwiegend mit
fugenelement:  -anleitung f. (zu 1):  [...]"

Da im Text nicht explizit angegeben wird, welches Kompositum mit welchem Fugenelement (hier natürlich 's') gebildet wird, ist ein rein automatischer Zusammenbau ohne Kontrollinstanz zu fehleranfällig. Daher dachte ich an einen Abgleich der maschinell erzeugten Zusammensetzungen mit einer Wortliste wie oben beschrieben, u.U. in Verbindung mit einer parametrisierbaren Unschärfe über die Levensthein-Distanz und anschließender manueller Kontrolle von Zweifelsfällen.

Vielleicht hat jemand von Ihnen/von Euch Tipps bzgl. einer entsprechenden Liste oder auch zum generellen Vorgehen? Trennlisten des Deutschen für das #SATZ-Programm, die mir vorliegenden, sind mit rund 28.000 enthaltenen Wörtern im Umfang vermutlich etwas zu klein für den angestrebten Zweck...

Vielen Dank und beste Grüße in die Runde Matthias Schneider


[1] Konjugationsvarianten sind aufgrund des Anwendungszwecks weniger relevant. 

==================================================== 
|           Matthias Schneider, M.A. 
|__Kompetenzzentrum für elektronische Erschließungs-
|     und Publikationsverfahren in den
|     Geisteswissenschaften
|__Trier Center for Digital Humanities
|__Universität Trier
|__DM 341
|__Mail: schneiderm at uni-trier.de
|__Homepage: 
|     http://www.kompetenzzentrum.uni-trier.de
|     http://www.m-schneider.eu
|__twitter: @ms91tru, @museumdighum
|__Telephon: 
|     + 49 651 201 2935
====================================================

------------------------------------------------------------
Tustep-Liste at itug.de
https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste

------------------------------------------------------------
Tustep-Liste at itug.de
https://lists.uni-wuerzburg.de/mailman/listinfo/tustep-liste



Mehr Informationen über die Mailingliste Tustep-Liste