SLP Notizen
Teil II
Kapitel 8: Wortarten und POS-Tagging
Inhalt
- Allgemeines
- offene vs. geschlossene (Funktionswörter) Wortarten
- Wortarten des Englischen
- Nomen,
- Eigennamen
- zählbare vs. nichtzählbare
- Verben
- Adjektive
- Adverben
- locativ: zuhause, dort
- manner: schnell, langsam
- temporal: gestern
- Präpositionen
- geschlossene Wortart
- neben, bei, über, hinter, am, nach
- Auxiliar, Hilfsverb (geschlossene Wortart)
- Artikel
- Pronomen
- Personal, Possesiv, ...
- Fragepronomen
- Konjunktionen
- Partikel: hoch, runter, dort, nicht, nein
- Zahlwörter
- Tagsets: sehr viel präziser als oben angegeben, meist 40 -
70 unterschiedliche Tags, teilweise Tags für einzelne
Funktionswörter
- POS-Tagging
- häufig mehrere mögliche Tags für ein Wort (grade beim Englischen, da es kaum Wortendungen einfügt
- gerade häufige Wörter sind oft mehrdeutig
- "can": Dose, können, einmachen
- Wörter mit Leerzeichen: können als "ein Wort" getagged werden. Vor allem Eigennamen: New York, Hapag Lloyd
- prinzipiell ist das Problem gelöst (Genauigkeit > 95%)
- Regelbasiertes POS-Tagging
- Lexikon mit Zwei-Level-Morphologie (-> ganz viele Wörter und viele Informationen über sie)
- tausende Constraints, die bestimmte Reihenfolgen ausschließen oder mit Kosten belegen
- viel Arbeit...
- stochastisches (HMM) POS-Tagging
- nutzt Bigramme, bzw. N-Gramme
- für Bigramme Viterbi-Decoding
- für (N>2)-Gramme stattdessen spezielle "End-Of-Sentence"-Marker
- Backoff, Interpolation und so weiter auch
- Training mit gelabelten Daten
- oder prinzipiell auch mit EM-Algorithmus (falls es keine gelabelten Daten in der Sprache gibt)
- transformationsbasiertes POS-Tagging (= Brill-Tagging, Transformation Based Learning = TBL)
- zunächst werden die wahrscheinlichsten Tags gewählt
- dann werden durch Regeln Tags in gewissen Kontexten transformiert
- die Regeln können (anhand eines gelabelten Korpus') gelernt werden
- unbekannte Wörter
- Morphologie beachten
- regelbasiert
- data-driven über gelernte rückwärtsgewandte Tries
- sind in den meisten Fällen Eigennamen oder andere Nomen
letzte Änderung: 20. August 2006.
mail AT timobaumann.de