SLP Notizen
Teil II
Kapitel 9: CFGs fürs Englische
Inhalt
- Konstituenten
- Bezeichnung für strukturelle Einheiten (hier syntaktische Einheit) der Sprache
- Verbgruppen, Hauptwörter und ihre Artikel, zeitliche Ergänzungen, ...
- Ermittlung durch Konstituententests (Referenzsatz: "Der Junge fängt den Ball")
- Ersetzung: "Der Junge fängt den Apfel"
- Koordination: "Loriot fängt die Vase und das Bild"
- Verschiebung: "Den Ball fängt der Junge"
- Erfragen: "Was fängt der Junge, Der Junge fängt was?"
- Pronominalisierbarkeit: "Er fängt ihn"
- Konstituenten ergeben geschachtelt wieder neue, größere Konstituenten
- Konstituenten haben einen Kopf, der ihren Typ bestimmt (Nomen → Nominalphrase, Verb → Verbalphrase, ...)
- Modifikationen bestimmen zusätzlich zum Kopf die Bedeutung der Konstituente
- kontextfreie Grammatiken
- auch: Phrasen-Struktur-Grammatik, Backus-Naur Form
- terminale und non-terminale Symbole,
- für Nonterminale gibt es Regeln, wie aus ihnen andere Symbole produziert werden
- auf der linken Seite der Regel steht immer genau ein Nonterminal (daher kontextfrei)
- von einem Startsymbol (S) aus können Sätze produziert werden oder
- für eine gegebene Folge von Terminalen kann geprüft werden, ob sie durch Regeln der Grammatik abgeleitet werden kann
- -> dies nennt man Parsen, die Abfolge der Ableitungen bilden einen Syntaxbaum mit dem Startsymbol an der Wurzel
- häufig wird jeweils das Kopf-Wort (der lexikalische
Kopf) der Phrase mit in die Ableitungen geschrieben
(Dependenz-mäßig),
- dafür müssen die Regeln um die Angabe ergänzt werden, welche Konstituente den Kopf der Phrase enthält
- formal:
- Menge von Nonterminalen N
- Menge von Terminalen Σ
- Menge von Produktionen P, jeweils in der Form A → α, mit A ∈ N und α ∈ (Σ ∪ N)*
- ein Startsymbol S ∈ N
- Äquivalenz von Grammatiken und Normalformen
- starke
Äquivalenz: zwei Grammatiken sind stark äquivalent, wenn sie zu selben
Äußerungen gleiche Strukturen erzeugen (modulo Benennung der
Nonterminale)
- schwache Äquivalenz: zwei Grammatiken sind
schwach äquivalent, wenn sie die selben Äußerungen akzeptieren (aber
mit unterschiedlichen Strukturen)
- Chomsky Normal Form (CNF):
- Produktionen der Form A → B C und D → a
- entweder zwei Nonterminale oder ein Terminal
- jede CFG lässt sich in CNF bringen und ist dann schwach äquivalent zur ursprünglichen Grammatik
- Satz-Konstrukte
- Aussagesätze (deklarative)
- Befehlssätze (imperative)
- Fragen
- Ja/Nein-Fragesätze
- im Englischen mit Auxiliar, S → Aux NP VP
- im Deutschen durch Inversion "Wirft Peter den Ball?", Sinv → ?? (die VP ist "wirft den Ball")
- Fragesätze mit Fragewort (Wh-Sätze)
- wh-Subjekt-Sätze
- "Wer wohnt in Dortmund?" S → Wh-NP VP
- wh-Nonsubjekt-Sätze
- "Wie komme ich von hier nach Dortmund?" S → Wh-NP Sinv
- Bewegung (wh-Bewegung, Topikalisierung, Inversion, ...) durch leere Traces (siehe Treebank-Abschnitt)
- insgesamt deutlich unausgegoren, aber vermutlich mit komplexeren Regelwerken greifbar
- NP-Konstrukte
- es gibt unterschiedliche Typen von Nomen (zählbare vs. unzählbare Nomen, Eigennamen, ...)
- pränominale und postnominale Modifikatoren
- pränominale:
- Artikel
- Zahlwörter
- Quantifikatoren (viele, einige)
- Attributphrasen (Adjektivphrasen)
- postnominale
- Präpositionalphrasen ("aus Dortmund")
- Relativsätze ("die lange blonde Haare haben")
- Englisch: non-finite clauses, Gerund-clauses
- die Reihenfolge der Modifikatoren untereinander ist (mehr oder weniger) fest
- Kongruenz (Agreement)
- Verb und Subjekt stimmen in Numerus und Person überein
- Objekte stimmen im Kasus mit ihrer Argumentposition überein
- naiver Ansatz: einzelne Regeln für unteschiedlichen Genus, Person, ...
- aufgeblasene Grammatik, intuitiv nicht korrekt
- Lösung: Merkmalsstrukturen, die miteinander unifizieren müssen um gültige Ableitungen zu ergeben
- VPs und Subkategorisierung
- es gibt unterschiedliche Verbtypen
- intransitiv (ohne Komplemente, "verschwindet"), transitiv (ein Komplement, "liest"), ditransitiv (zwei Komplemente, "gibt")
- tatsächlich viel genauere Aufteilung notwendig und sinnvoll als diese drei
- Verben fordern bestimmte Komplemente in bestimmten Anordnungen. Sie können so in Subkategorien unterteilt werden
- meist gibt es für Verben mehrere Möglichkeiten
- Lösung: Merkmalsstrukturen
- Auxiliarverben, Hilfsverben
- bestimmte Reihenfolge unter den Auxiliarverben festgelegt (modal < perfect < progressive < passive)
- Passiv: tauscht Subjekt und Objekt aus
- Koordination
- Verbindung auf gleicher Ebene → welche Teilkonstituente liefert den Kopf der Phrase?
- und, oder, aber, ...
- Regeln vom Typ S -> S und S
- Probleme durch Mehrdeutigkeit: "[[alte Männer], [Frauen] und [Kinder]]"
- Treebanks (Syntaxbaumbanken)
- Bezeichnung für syntaktisch annotierte Korpora
- bekannte Treebanks: Penn Treebank, Negra Korpus, Prague Dependency Treebank
- enthalten teilweise leere Kategorien (Traces) für "long distance relationships"
- die Treebank definiert implizit eine Grammatik (die die Treebank erzeugt) durch alle verwendeten Produktionen
- sehr flache, Bäume, daher extrem viele und breite Regeln
- sinnvoll erst mit Nachbearbeitung
- Syntax gesprochener Sprache (im Vergleich zur Schriftsprache)
- stärkere Nutzung von Pronomen, fast alle Subjekte sind pronominalisiert
- fast keine "vollständigen Sätze", viele Unterbrechungen, Neustarts, Reparaturen
- Unterbrechungen des Redeflusses:
- Füllwörter: "ehm", "um", "äh", aber auch "nicht?"
- um Zeit zur Planung der Äußerung zu gewinnen
- an manchen Stellen (zwischen Konstituenten) wahrscheinlicher
- Reparaturen "ich kaufe Braunbären, äh, Blaubeeren"
- meist in Tateinheit mit Füllwort
- Reparierendes hat meist dieselbe Struktur wie Repariertes
- je nach Anwendung sollen die Füllwörter meist ausgefiltert werden und Reparaturen vorgenommen werden
- natürlich müssen auch partielle Äußerungen soweit möglich verstanden werden
- Reguläre Ausdrücke vs. kontextfreie Grammatiken
- im Unterschied zu Regexps erlauben CFGs zentrale (center-embedded) Rekursion
- A → aAb
- diese Regeln treten tatsächlich in der Sprache auf (vor allem im Schweizerdeutschen um Zürich)
- Speicherbeschränkungen begrenzt die menschliche
Performanz auf eine (in gewissen Fällen sehr geringe)
Rekursionstiefe. Dadurch können endliche Automaten mit dieser
Tiefe konstruiert werden, die der menschlichen Performanz entsprechen
(aber intuitiv nicht "korrekt" sind)
- Recursive Transition Networks (RTN) sind eine zu CFGs
äquivalente Erweiterung von FSAs, die aus anschaulichen
Gründen sinnvoll sein können
- Dependenz-Grammatiken
- sehr altes Konzept, traditionell, europäisch (vs. Konstituenten amerikanisch)
- keine Konstituenten, Wörter sind die einzigen "Elemente"
- Relationen zwischen Wörtern, und speziellem Wurzelknoten
- Subj, DObjekt, AObj, Det, ...
- gut für Sprachen mit freier Wortanordnung im Satz
- WCDG rules ze wörld.
- Categorial Grammar
- Kombinationsregeln
- Operatoren \ und / für kombiniert mit Argument nach links/rechts
- Lambda-Kalkulus, Funktionen, werden auf ihre Argumente angewendet
- menschliche Grammatikverarbeitung
letzte Änderung: 12. August 2006.
mail AT timobaumann.de