SLP Notizen
Teil II
Kapitel 11: Merkmale und Unifizierung (Features and Unification)
Inhalt
- Kongruenz ist ohne Merkmale, die Wortarten weiter
unterteilen, intuitiv nicht "korrekt" gelöst
- Die Zerteilung von Wortarten in Unterwortarten (Verb
-> VerbInfinitiv, Verb1sg, Verb2sg, ...) führt zu einer
übermäßig großen, nicht wartbaren
Grammatik
- die Merkmale beschränken die Produktion von
Konstituenten, es handelt sich also um Constraints
- Merkmalsstrukturen (Vektoren)
- Attribut-Wert-Liste, wobei als Attribute wieder
Merkmalsstrukturen erlaubt sind
- Außerdem können "Aliase" auf gleiche
Teilstrukturen verweisen (Zahlen)
- dadurch übertragen sich Änderungen an
einer Stelle auch auf die andere Stelle
- Beispiel: [Cat: S, Head: [Agreement (1) [Num sg, Ps 3],
Subject [Agreement (1)]]
- darstellbar als gerichtete (hoffentlich azyklische)
Graphen
- Merkmalspfad:
eindeutige Bezeichnung eines verschachtelten Merkmals. In spitzen
Klammern geschrieben.
- zum Beispiel oben: 〈Head
Agreement〉 = 〈Head Subject
Agreement〉
- Unifizierung von Merkmalsstrukturen
- Unifikations-Operator: ⊔
- zwei Strukturen heißen unifizierbar, wenn
sie (rekursiv) keine sich widersprechenden Merkmale aufweisen.
- natürlich ist es erlaubt, dass eine Struktur
bestimmte Merkmale der anderen nicht hat
- atomare Merkmale die bei beiden vorhanden (und nicht
null) sind, müssen gleich sein
- nicht-atomare Merkmale müssen unifizierbar sein
- die Unifizierung
zweier Strukturen ist die allgemeinste Struktur, die die Constraints
beider zugrundeliegender Strukturen erfüllt
- Beispiele: [A = 1] ⊔ [B = 2] = [A = 1, B = 2]; [A =
1] ⊔ [A = 1, B = 2] = [A = 1, B = 2].
- Merkmalsstrukturen können in einer partiellen Ordnung (Subsumption) nach ihrer Allgemeinheit geordnet werden
- [] ⊑ [A = 1] ⊑ [A = 1, B = 2]
- Merkmalsstrukturen in der Grammatik
- CFG-Regeln werden Const raints (in geschweiften Klammern
hinter der Regel) hinzugefügt
- die Constraints ordnen Merkmalspfaden entweder andere
Merkmalspfade oder atomare Werte zu
- Beispiel: S → NP VP { 〈NP Kasus〉 = Nominativ, 〈NP Kongruenz〉 = 〈VP Kongruenz〉 }
- tauchen in einer Regel mehrere gleiche Konstituenten auf der
rechten Seite auf, müssen sie durchnumeriert werden um eindeutig
identifizierbar zu bleiben
- den Lexikoneinträgen werden entsprechende Constraints mitgegeben:
- Nomen → Peter { 〈Nomen Number〉 = sg, 〈Nomen Genus〉 = mask }
- Agreement/Kongruenz:
- Übereinstimmung in Kasus, Numerus, Genus und Person zwischen Konstituenten
- Kopf-Merkmale
- Konstituenten haben jeweils einen syntaktischen Kopf
- tatsächlich werden meist die Merkmale des Kopfes auf die ganze Konstituente übertragen
- Beispiel: VP → Verb NP { 〈VP Kongruenz〉 = 〈Verb Kongruenz〉 }
- Subkategorisierung (=Valenz)
- Beispiel Verben (intransitiv, transitiv, ditransitiv)
- Beispiel "denn/weil":
- "denn" subkategorisiert einen Hauptsatz
- "weil" subkategorisiert einen Nebensatz
- long-distance dependencies (durch Bewegung, Inversion)
- Kongruenz kann über längere Entfernungen sichergestellt werden
- Implementierung der Unifizierung
- als gerichteter Graph,
- jeder Knoten enthält
- einen möglichen "Content", der auch wieder auf andere Knoten verweisen kann
- einen Zeiger für Aliase, der im Zweifel gegenüber dem Inhalt Vorrang hat
- Unifizierungsalgorithmus
- Parsen mit Unifizierungsconstraints
- lässt sich in einen beliebigen CFG-Parser integrieren
- alternativ kann Unifizierung auch als nachgelagerter Schritt
erfolgen, damit wird aber die Chance vergeben, schon während der
Verarbeitung den Suchraum zu verkleinern
- im Earley-Parser:
- Predictor/Scanner übernimmt den gerichteten azyklischen Graphen aus der Regel/dem Lexikon
- Completer prüft, ob die zu integrierende Konstituente
mit der Regel unifiziert werden kann und wenn erfolgreich, unifiziert
sie und rückt den Punkt eins weiter
- teilweise kann eine Regel mit unterschiedlichen Constraints mehrfach erforderlich sein
- wenn der Constraint des einen Zustand den Constraint des anderen subsumiert, reicht es, den spezifischeren Zustand zu behalten
- unser Unifizierungsalgorithmus ändert Merkmalsvektoren,
auch wenn die Unifizierung nicht erfolgreich ist, deswegen muss der
Merkmalsvektor zunächst kopiert werden, bevor unifiziert werden
kann
- Unification Parsing: man kann soweit gehen, die ganze Grammatik durch Constraints auszudrücken und in den Regeln allgemeine Symbole (X0 → X1 X2) zu verwenden
- Typen und Vererbung
- TODO
letzte Änderung: 12. August 2006.
mail AT timobaumann.de