SLP Notizen
Teil IV
Kapitel 21: Maschinelle Übersetzung (MT)
Inhalt
- Anwendungen:
- Roh-Übersetzung
- Vor-Übersetzung und spätere Nacharbeit durch einen Übersetzer (CAT: computer aided translation)
- eingeschränkte Übersetzung für beschränkte Domänen
- tatsächliche Systeme sind meist Kombinationen aus Transfer-, Interlingua- und direkter Übersetzung
- Unterschiede und Gemeinsamkeiten unterschiedlicher Sprachen
- Sapir-Whorf-Hypothese: Die eigene Sprache beeinflusst das Denken und Handeln der Menschen
- Übersetzung hat als theoretisches Limit die Übereinstimmung der Konzepte zwischen den Sprachen
- je ähnlicher zwei Sprachen, desto einfacher ist die Übersetzung zwischen ihnen
- Universalien gelten für alle Sprachen, sind aber nicht besonders viele:
- wahrscheinlich überall gibt es Wörter
- wahrscheinlich überall gibt es Nomen und Verben (bzw. Konzepte für Objekte und Relationen zwischen Objekten)
- einige Wörter scheinen universal: Männer, Frauen, Kinder, essen und trinken, ...
- Informationsfluss pro Zeit ist in allen Sprachen ähnlich
- Typologie: Einordnung von Sprachen anhand von bestimmten Eigenschaften
- Morphologisch zwei Dimensionen:
- Zahl der Morpheme pro Wort: isolierend (jedes Morphem steht
alleine) <-> polysynthetisch (ganze Sätze bilden ein Wort)
- Segmentierbarkeit von Wörtern: agglutinativ (einfache Aneinanderreihung von (Affix-)Morphemen) <-> fusionierend (Morpheme, vor allem Affixe, bilden eine komplexe Oberflächenstruktur)
- Syntax:
- Freiheit der Wort-Anordnung im Satz
- "natürliche" Wort-Ordnung im Satz
- SVO, SOV, VSO
- davon abhängig scheinbar die Wahl zwischen Prä- und Postpositionen
- Kopf-Markierung oder Abhängigkeitsmarkierung
- das Haus des Mannes (Markierung an der Bestimmung)
- Ungarisch: az ember ház-a (Markierung am Kopf)
- Lexikon
- häufig keine 1:1-Umsetzung, sondern n:m
- manchmal fehlt ein Wort
- Pragmatik, Kulturelle Unterschiede
- französische Grußformeln, japanische Entschuldigungen, spanische Zusagen
- Transfer-Übersetzung
- Transfer Modell, das kontrastives Wissen, also Unterschiede zwischen den Sprachen enthält
- üblicherweise für jedes Sprachpaar unterschiedlich (daher für viele Sprachen aufwendig)
- Analyse, Transfer, Generierung
- Tiefe der Analyse und Höhe der Generierung hängt von der Größe des Unterschieds zwischen den Sprachen ab
- Analyse
- Parsing, jedoch kann meist viel Ambiguität übriggelassen werden
- zum Beispiel PP-Attachment ist nicht immer wichtig, kann aber relevant sein
- kann auch WSD beinhalten, was den lexikalischen Transfer später erleichtert
- Transfer
- Abbildung bestimmter Produktionen auf andere Produktionen
- Anwendung der Abbildung auf den Syntaxbaum
- Lexikalischer Transfer
- Funktionswörter: Übersetzung bestimmt sich hauptsächlich aus der syntaktischen Struktur
- Inhaltswörter: Übersetzung hauptsächlich aus dem Kontext mit Hilfe eines zweisprachigen Wörterbuchs
- manche Wörter "fordern" bestimmte andere Wörter
- Übersetzung in bestimmter Reihenfolge, z. B. erst Verben, dann Nomen, dann Adjektive
- Interlingua-Übersetzung
- sinnvoll, wenn von vielen in viele Sprachen übersetzt wird
- Aufwand für N Sprachen nur O(N) statt O(N2)
- jede Sprache: Analyse in Interlingua und Generierung aus Interlingua
- Interlingua ist eine Art semantischer Repräsentierung
- Tiefe und Art der Interlingua hängt vom Anwendungsfall ab
- erfordert intensive Analyse des Anwendungsfalls um Ontologien
aufzustellen, die das Wissen der Domäne ausreichend präzise
widergeben
- direkte Übersetzung
- besonders robust, da Transfer nur dort stattfindet, wo er motiviert ist
- erzeugt immer eine Antwort (im schlimmsten Fall unübersetzt)
- betrachtet Sprache als Kette von Wörtern, nicht als Struktur
- wenig rechenintensiv
- Sprachpaar-spezifisch
- Kaskade einfacher, robuster Operationen, die aufeinander aufbauen
- Beispiel Japanisch-Englisch:
- morphologische Analyse zur Wortgrenzendetektion
- lexikalischer Transfer der Inhaltswörter
- Transfer von Präpositionen
- syntaktischer Transfer
- vermischtes
- Morphologische Generierung (Genitiv-s, Tempus und Person am Verb)
- Modularisierung ist orthogonal zu anderen Arten der Übersetzung
- zum Beispiel werden alle Probleme PPs betreffend (Anordnung, Morphologie, ...) in einem Schritt gelöst
- Lexikalischer Transfer beispielsweise durch Entscheidungslisten
- statistische Methoden zur Übersetzung
- nicht der Prozess der Übersetzung, sondern das Resultat ist entscheidend:
- wodurch zeichnet sich eine gute Übersetzung aus?
- Qualität der Übersetzung besteht aus Flüssigkeit des Übersetzten und Quellentreue
- die beste Übersetzung ist jene, die möglichst
flüssig und gleichzeitig möglichst quellentreu ist
(Abwägung notwendig)
- beste Übersetzung T = argmaxT P(T) × P(S|T)
- P(S|T): Wahrscheinlichkeit, dass S der Quellsatz zur Übersetzung T ist
- Flüssigkeit eines Satzes:
- Quellentreue eines Satzes:
- Nutzung bilingualer Korpora um Wahrscheinlichkeiten für mehrdeutige Quellsprachwörter auszuzählen
- zunächst rein deklarative Methode, es wird nicht angegeben, welche Zielsprachsätze getestet werden sollen
- dafür können Hypothesen durch Suche im
Übersetzungsraum (der von den obigen Methoden gefüllt wird)
gebildet werden
- Benutzbarkeit und Architektur von MT-Systemen (CAT: computer aided translation)
- arbeitspsychologische Grundsätze müssen eingehalten werden
- der Mensch kontrolliert die Maschine
- die Maschine ist nur ein Werkzeug des Menschen
- der Mensch darf nicht in einen zu engen Prozess gepresst werden
- der Mensch übernimmt Verantwortung
- Pre-Editing und beschränkte Sprache sind sinnvoll, wenn
anschließend automatisiert in mehrere Sprachen übersetzt
werden soll
- Beispielsbasierte MT und Translation Memory lernen mit
letzte Änderung: 13. August 2006.
mail AT timobaumann.de