SLP Notizen
Teil IV
Kapitel 20: Natural Language Generation (NLG, Erzeugung von Sprache)
Inhalt
- nicht behandelt:
- "canned speech/text": Abspielen vorgegebener Samples/Texte
- template-filling: Einfüllen von Wörtern in gegebene Templates
- schon im Vorherein geplant
- Einführung
- unterschiedliche Systeme haben unterschiedliche Eingaberepräsentationen
- während NLU (natural language understanding) durch Mehrdeutigkeit Probleme bekommt, ist es bei NLG das Problem der Auswahl
- Auswahl unter anderem bei:
- Inhaltsauswahl (nicht alles was kommuniziert werden soll,
muss auch offen ausgesprochen werden, Sprache ist schließlich
dadurch effektiv, mehrdeutig zu sein)
- Lexikalische Auswahl (zur Präzisierung/Generalisierung, im Kontext, ...)
- Satzstruktur
- Aggregation: Zusammenfassung von Information im Satz (Koordination, Ellipsen, ...)
- Anaphern
- Diskurs-Struktur: es gibt viele Möglichkeiten, etwas zu sagen
- Architektur zur Spracherzeugung
- Diskurs-Planer: Reihenfolge und Inhalte der Sätze
- erzeugt aus gegebenem Kommunikationsziel mithilfe seiner Wissensbasis eine Diskurs-Spezifikation
- Oberflächen-Generierer: Realisierung vorgegebener Inhalte eines Satzes
- erzeugt pro Satz aus Spezifikation eine Wortfolge
- Anmerkungen
- Nachteil: reine Pipeline, Fehler werden propagiert, Wissen ist lokal
- weiterer nötiger Zwischenschritt: Mikroplanning für Anaphern und Aggregation
- Oberflächengenerierung
- Eingabe: rein funktionale Darstellung (keine Darstellung der Form)
- Ausgabe: Ausgestaltung der Funktion
- Systemische Grammatik
- Satz: Sammlung von Funktionen
- Regeln zur Abbildung der Funktionen auf Satzstrukturen
- Functional Unification Grammar
- Grammatik als Attribut-Wert-Matrix (geschweifte Klammern für Auswahl
- Festlegung bestimmter Kategorien (Aktor, Aktion, Ziel, ...) im Satz-Knoten
- Pattern regelt in einer Liste die Anordnung der Wörter innerhalb der Konstituente
- Eingabe auch als Attribut-Wert-Matrix (Functional Description)
- TODO: Beispiel auswendig lernen
- prinzipiell bi-direktional, tatsächlich aber leicht unterschiedliche Bedarfe zwischen Erkennung und Generierung
- Diskurs-Planung
- Wissensbasis beispielsweise aus Prozeduren mit Aktionssequenzen und darausfolgenden Seiteneffekten
- Kommunikationsziel (beispielsweise): Erklärung einer gegebenen Prozedur
- Text-Schemata
- einfaches Augmented Transition Network (ATN)
- füge Preconditions hinzu bis alle erfüllt sind
- drücke Aktion aus und füge rekursiv Teilaktionen hinzu
- Endzustand: erkläre Seiteneffekte (optional)
- Rhetorische Relationen: Rhetorical Structure Theory (RST)
- unterschiedliche Relationen zwischen Sätzen
- Ausführung/Erläuterung
- Kontrast
- Grund
- Sequenz
- Resultat
- ...
- hierarchischer Aufbau zu einem Baum
- erlaubt es, Wörter wie "jedoch" (bei Kontrast) einzufügen
- Eingabe: Ziel, das beim Hörer erzeugt werden sollen
- Prozess: Formulierung von Aktionen, die gegebene Ziele (rekursiv, top-down) erreichen
- Regeln die jeweils Sätze mit Inhalt in Relation zu anderen Sätzen erzeugen
- weitere Themen
- Mikroplanung
- Pronominalisierung von Anaphern, wenn ihr Fokus stark genug ist (siehe Kapitel 18)
- Aggregation (durch Koordination oder Ellipsen, wenn der Kontext ähnlich genug ist)
- Lexikalische Auswahl
- Auswahl des passenden (Präzision/Generalisierung, Kontext/Kolokation, Register) Lexems je nach Rezipienten
- Evaluierung
- Vergleich von maschinenerzeugtem Text mit handerzeugtem Text
- Expertenmeinungen
- Erreichen des Ziels: Testergebnisse von Menschen, die den Text gelesen haben
- Erzeugung gesprochener Sprache
- prinzipiell aus der Wortfolge möglich (nicht integriert)
- sinnvoll: direkt in den Prozess integriert, da der Prozess
bestimmte Informationen hat, die in der Wortfolge verloren gehen
würden (Prosodie, Homographen, Betonung)
- wenig erforscht
letzte Änderung: 16. August 2006.
mail AT timobaumann.de