papo
New member
- Registriert
- 02. Mai 2006
- Beiträge
- 556
Willkommen in der Welt der Computerlinguistik :stupid: Das ist ja nicht gerade leichte Kost... Warum denn keine Wortlisten, basierend auf deutschen Textkorpora (z.B. DWDS)Nein, leider nicht. Ich habe noch nicht mal einen Algo gefunden, der überhaupt erkennt, ob es sich um ein richtig geschriebenes deutsches Wort handelt oder nicht (ohne selbst mit Wortlisten abzugleichen). Geschweige denn, auch noch nach Substantiven und Verben in der Gundform zu unterscheiden.
Wer einen solchen (funktionierenden) Algorithmus kennt, darf sich gerne melden. Es gibt Finderlohn.
Alternativ - wenn auch leicht zweckentfremded - könnte dir der folgende part-of-speech tagger helfen: TreeTagger.
Code:
NN = Nomen
V*** = Verb
paul@rincewind:~/tagger>$ echo 'Domainhandel' | cmd/tagger-chunker-german
Domainhandel NN <unknown>
>$ echo 'Steuersoftware' | cmd/tagger-chunker-german
Steuersoftware NN <unknown>
>$ echo 'losgefahren' | cmd/tagger-chunker-german
losgefahren VVPP losfahren
Falls du doch lieber Menschen damit beauftragen willst kann ich dir clickworker.com - Your crowdsourcing Platform empfehlen. Dort haben wir z.B. schon erfolgreich größere Domainlisten kategorisieren lassen.