SLP Notizen
Teil I
Kapitel 3: Morphologie und FSTs (finite-state transducer, Moore-Automat, Mealy-Automat)
Inhalt
- Morphologie behandelt die Lehre von den Formen der Wörter, die aus Morphemen, den kleinsten funktionistragenden Einheiten der Sprache zusammengesetzt sind
- die Disambiguierung und Strukturisierung von Wörtern heißt morphologisches Parsen
- man unterscheidet vielfach zwischen einer zugrundeliegenden lexikalische (Tiefen-)Form und der realisierten Oberflächenform
- Morphologie hilft bei:
- Lemmatisierung: Zurückführung eines Worts auf seine "Grundform", komplexe Form des stemmings
- Tokenisierung: Zerteilung einer Äußerung in seine Wörter/Bestandteile
- Erkennung neuer Wörter, die durch Produktion entstanden sind
- Morphologie ist ein tatsächlicher Schritt in der
Sprache, deswegen kann man ohne morphologische Methoden nicht/kaum
Sprache verarbeiten
- Morphologische Prozesse lassen sich gut durch FSTs (endliche Transduktoren) beschreiben
- Morpheme
- lassen sich unterscheiden in Wortstämme und Affixe (Prefixe, Suffixe, Infixe und Zirkumfixe).
- Die Zahl der Stämme und Affixe in einem Wort ist sprachabhängig (agglutinierende Sprachen besonders hoch)
- die Affixe lassen sich häufig auch als Merkmale ansehen (engl -s: 3. sg, -bar: VB->ADJ)
- Morphotaktische Prozesse
- Flektionsmorphologie (Beugung)
- gehen -> geh + INF, ging -> {geh + 1. sg, Prät, geh + 3. sg,m Prät.}
- verändert die Wortart nicht
- es gibt regelmäßige und unregelmäßige Beugung, teilweise unterschiedliche Flektionsgruppen.
- Unregelmäßige Beugung besonders häufig bei
häufigen Wörtern, meist ist nur die regelmäßige
Klasse produktiv
- Derivationelle Morphologie (Ableitung)
- Abgang -> Ab + (geh + NN)
- Affixe die aus Wörtern einer bestimmten Wortart ein Wort einer anderen (oder auch derselben) Wortart erzeugen
- genaue Semantik nur sehr selten präzise deduzierbar
- Komposition (Zusammensetzung, sehr produktiv im Deutschen)
- Schultisch -> Schule + Tisch
- Klitisierung
- haste -> hast du, I'm -> I + am, l'hôtel -> le + hôtel,
- nicht-konkatenative Morphologie: komplexere Zusammenhänge als durch Reihung bzw. Infixe und Zirkumfixe
- template morphology: Konsonanten bestimmen den Wortsinn, Vokalpattern die Wortart (semitische Sprachen)
- Vokalharmonie: Vokale innerhalb eines Wortes müssen einer Gruppe angehören (finno-ugrische Sprachen, türkisch)
- FST parsing
- Erzeugung der Wortstruktur zu einem gegebenen Wort (in Oberflächenform)
- die Wortstruktur ist nicht immer eindeutig (probabilistische Modelle, POS tagging)
- nutzt zwei-Schichtiges Morphologisches Parsing
- lexikalische Darstellung -> Zwischenrepräsentation (Morphemgrenzen, Merkmale in Form und nicht Funktion)
- Zwischenrepräsentation -> Oberflächenform
- benötigt:
- Lexikon: enthält die Stämme und Affixe zusammen mit
Informationen über ihre morphologischen Eigenschaften (z. B.
unregelmäßig, nicht steigerbar, Konjugationsgruppe 2, ...)
- Morphotaktik: Modell der Zusammensetzung von Morphemen zu Wörtern
- orthographische und phonologische Regeln: erklären
Schreib- bzw. Aussprachebesonderheiten (Fugen-S im Deutschen, y ->
ie im Englischen vor Plural-S)
- Kompilation: Entfernung der Abstraktionsschichten (Wortarten, unterschiedliche Regeln) zur Effizienzsteigerung
- Lexikon: Wörter werden bestimmten "Klassen" zugeordnet,
die im weiteren im FST an die Kantenübergänge geschrieben
werden (ermöglicht die leichte Erweiterbarkeit der Morphologie,
letztendlich wird der FST häufig aus dem Lexikon "kompiliert" und
erst dann eingesetzt -> höhere Effizienz)
- endliche Automaten können (mit Einschränkungen:
Morphologie ist nicht immer in jeder Sprache regulär) benutzt
werden um Wörter der Sprache zu akzeptieren und Nichtwörter
zurückzuweisen
- aus einem Startzustand führen Kanten (mit leerem Wort
oder für Morpheme) in andere Zustände. Bestimmte
Zustände sind Endzustände. Alle gültigen Wörter
führen in einen Endzustand, ungültige Wörter nicht
- solche Modelle sind wegen vieler Ausnahmen und dem schieren Umfang des Regelwerks sehr komplex
- in kompilierten Automaten stehen an den Übergängen
Buchstaben (bzw. das leere Wort), sodass die Akzeptanz sehr effizient
geprüft werden kann
- FSTs erweitern endliche Automaten indem sie nicht nur von einem Eingabeband lesen, sondern auch auf ein Ausgabeband schreiben
- das Schreiben kann an den Zustand gebunden sein
(Moore-Automat) oder an die Zustandsübergänge
(Mealy-Automat). in diesem Kapitel werden Mealy-Automaten benutzt, sie
sind aber äquivalent zu Moore-Automaten
- FSTs definieren eine Relation zwischen Wort-Mengen
- der FST besteht aus
- endlicher Zustandsmenge Q
- endliches Alphabet Σ komplexer Symbole i:o,
mit i ∈ I und o ∈ O, also Σ ⊆
I × O, das leere Wort ε darf in I und O
enthalten sein
- komplexe Symbole a:a werden einfach als a geschrieben
- @ steht für das Jokersymbol, das jedes Symbol repräsentiert
- "other" steht für sonst nicht im Automaten besonders vorkommende Symbole
- Startzustand q0
- Menge der Endzustände F ⊆ Q
- Übergangsfunktion δ: Q × Σ → Q für deterministische FSTs bzw.
- Übergangsrelation δ: Q × Σ → 2Q für nichtdeterministische FSTs
- FSTs sind geschlossen bezüglich Vereinigung aber nicht bezüglich Differenz, Komplement und Schnitt
- FSTs sind außerdem geschlossen bezüglich
- Umkehrung (Inversion, Vertauschung von I und O)
- brauchbar, wechselt zwischen Erkennung und Generierung
- Komposition (Hintereinanderschaltung mehrerer FSTs ist wieder ein FST)
- Kaskaden von FSTs verhalten sich wie FSTs, sehr nützlich!
- für FSTs muss das Lexikon um lexikalische und Oberflächen-Ebene erweitert werden, indem Paare i:o angegeben werden (g o:e o:e s e)
- Two level morphology
- zunächst wird aus der lexikalischen Ebene in eine Zwischenebene übersetzt, danach in die Oberfläche
- bisher: Automat liest Stamm + Merkmale (fox + N + PL) und schreibt Morphemfolge, mit Grenzen und Wortende (fox + ^ + s + #)
- diese Zwischendarstellung muss nach orthographischen bzw. phonologischen Regeln in die Oberflächenform gebracht werden
- Darstellung phonologischer/orthographischer Regeln:
a → b / c __ d bedeutet: a wird zu b zwischen c und d
(Notation nach Chomsky und Halle '68)
- diese Regeln können durch Transduktoren ausgedrückt
werden (die Transduktoren können automatisch aus der Regel erstellt
werden)
- die orthographischen Transduktoren laufen parallel, der Lexikon-FST davor kaskadiert
- beim Parsen können Mehrdeutigkeiten auftauchen (bei
komplizierten Worten sehr häufig → probabilistische FSTs)
- TODO Algorithmus zur Automaten-Schneidung
- Stemming:
- einfache Verfahren um abgeleitete Morpheme auf einen Stamm
zurückzuführen (indizierte Wörter werden gestemmt,
später kann das gestemmte Suchwort direkt verglichen werden)
- meist kaskadierte Rewrite-Regeln
- "Wort-Hashing"
- menschliche Morphologie-Verarbeitung
- teilweise ist Morphologie lexikalisch, teilweise nicht, teilweise beides
- Sprechfehler als Zeichen des Vorhandenseins eines Morphologiemoduls
nur im neuen Kapitel 3:
- Tokenisierung
- Zerlegung des Eingabetextes/-stromes in
- Sätze: nicht jeder Punkt beendet einen Satz
- Wörter: nicht jedes Leerzeichen trennt Wörter, nicht immer steht zwischen Wörtern ein Leerzeichen
- einfache Heuristiken (Abkürzungslisten, ggf. Großschreibung, etc.)
- komplexere Modelle: HMMs, N-Gramme, integriert in POS-Tagger, ...
- das Chinesische (zum Beispiel) kennt keine Wortgrenzen, sie müssen komplett geschätzt werden
- gesprochene Sprache kennt keine Wortgrenzen
- Rechtschreibfehler erkennen und korrigieren (nicht probabilistisch)
- relativ große Tippfehlerraten
- gleiches Problem wie OCR und Handschrifterkennung
- meist probabilistische Modelle (HMMs), hier nur einführende Algorithmen
- man unterscheidet:
- non-word errors (Graffe)
- isolierte Korrektur (Graffe-> Giraffe)
- isolierte Erkennung nur von non-word errors möglich
- kontextabhängige Erkennung und Korrektur
- erlaubt auch die Erkennung von real-word errors (Giroaffe)
- braucht statistische Modelle um zu funktionieren (N-Gramme)
- mit endlichen Automaten lässt sich die Zugehörigkeit eines Worts zur Sprache prüfen (Lexikon + Morphologie)
- bei Neueinträgen kann ein FST den Stamm + Endungen erkennen und sofort werden auch abgeleitete Wörter erkannt
- zur Fehlerkorrektur braucht man eine Metrik, die die Distanz zwischen Wörtern errechnet
- meist statistisches Modell, zugrundeliegend jedoch die Minimum Edit Distance
- Minimum Edit Distance (Wagner und Fischer, 1974)
- eine Metrik die die "Ähnlichkeit" von Zeichenketten bezeichnet
- Algorithmus nutzt dynamische Programmierung (optimale
Teillösungen sind Teil der optimalen Lösung, werden also
zuerst berechnet)
- siehe auch CYK-, Early-Parser, Viterbi-, forward-Algorithmen, DTW?)
- erreicht "alignment" (Abgleich, Anordnung) der Zeichenketten durch die Operationen Entfernung, Einfügung, Ersetzung
- den Operationen werden Kosten zugewiesen, Levenshtein-distance:
- Entfernung = Einfügung = 1,
- Ersetzung = 2 = Entfernung + Einfügung. Ersetzung ist also redundant.
- alignment lässt sich durch Backtrace rausfinden
- TODO: Algorithmus genau ausführen (Papier)
letzte Änderung: 17. August 2006.
mail AT timobaumann.de