SLP Notizen

Teil III: Semantik
Kapitel 17: Word Sense Disambiguation und Information Retrieval

Inhalt

Semantische Disambiguierung durch selektive Restriktionen

arbeitet auf Strukturen, integrierte Erstellung von Bedeutungsrepräsentationen
Typ-Hierarchien und Selectional Restriction
Restriktionen zwischen Verben und ihren thematischen Rollen.
Beispiel: Spiegel lesen vs. Spiegel putzen

lesen und putzen fordern unterschiedliche Patienz-Typen, damit kann dishes disambiguiert werden

nur zueinander passende Restriktionen können ausgewählt werden
ähnlich Features + Unifizierung
Probleme:

Unterspezifizierung in Fragen: Ich möchte den Spiegel kaufen. -> Pragmatik, Diskurswissen
Negation (sowieso problematisch) TODO: gibt es dazu eine Abhandlung?
eindeutige Verletzung (aber einzige Parsing-Möglichkeit: Der Elefant flog durch die Luft)
kreativer Gebrauch: Metonymie und Metaphern

Lösungen:

probabilistische Ansätze (Präferenzen statt Restriktionen)
sogenannte selektive Assoziation statt Restriktion

insgesamt Problem: erfordert zunächst korrektes Syntax-Parsing, dann umfangreiches Wissen über Präferenzen/Restriktionen

Robuste WSD

unabhängig von syntaktischen und semantischen Strukturen
Funktionalität mit POS-Tagger vergleichbar
Maschinelles Lernen um dem Problem beizukommen
Eingabe: Merkmalsvektoren

collocation (Anordnung): benachbarte Wörter und Wortarten stehen (der Reihenfolge nach) im Merkmalsvektor
co-occurence: Wörter (sinnbehaftete) die in der Nachbarschaft vorkommen kommen im Merkmalsvektor vor
zusätzlich können morphologische Methoden oder partielles Parsing durchgeführt werden (z. B. thematische Rollen im Merkmalsvektor)

überwachtes Lernen

naive Bayes-Klassifikation

ŝ = argmax_s∈S P(s|V), mit S Menge der möglichen Wortbedeutungen, V Merkmalsvektor
immer den in Angesicht des Merkmalsvektors wahrscheinlichsten Wortsinn zurückgeben
umgekehrte (Bayessche) Wahrscheinlichkeit und Unabhängigkeitsannahme bezüglich der Komponenten des Merkmalsvektors und Vernachlässigung der absoluten Wahrscheinlichkeit für den Merkmalsvektor (ist für alle s∈S gleich) führt zu:
ŝ = argmax_s∈S P(s) Prod P(v_j|s) für j aus 1 .. n

Smoothing, backoff, ...
Data-Sparsity
Training: Statistiken über die Nachbarschaften (bzw. was sonst im Merkmalsvektor steht) der mehrdeutigen Wörter

Decision list Klassifizierung

simpler als Decision Trees, TODO: aber ähnlich mächtig?
lange Liste von case-Statements (Ja-Nein-Fragen), am Ende Mehrheitsentscheidung als Default
Training: Auswahl der richtigen Fragen in der richtigen Reihenfolge
ein Trainingsverfahren: jedes Feature/Bedeutungspaar ist ein Test, Anordnung gemäß log-likelihood ratio: abs(log(P(Sense1|f=v)/P(Sense2|f=v)))
komplett anderes Lernverfahren in Russel und Norvig (2003)

braucht große Mengen klassifizierter Daten

bootstrapping

Verfahren das mit wenigen Saat-Annotierungen auskommt

Auswahl bestimmter "prototypischer" Verwendungen
Handannotation einiger zufälliger Verwendungen
Ableitung aus maschinenlesbarem Lexikon

kann mit jedem Algorithmus für überwachtes lernen kombiniert werden, wenn:
dafür muss der Klassifizierer seine Konfidenz bei Entscheidungen mitteilen können
zunächst lernt er an wenigen Beispielen, klassifizert und nutzt "sichere" Klassifizierungen um weiterzulernen

unüberwachtes Lernen

viele unterschiedliche Verfahren
eins: jedes Vorkommen ist zunächst eine eigene Klasse, die zwei ähnlichsten Klassen werden solange verschmolzen, bis die gewünschte Zahl Klassen erreicht ist, bzw. der innere Zusammenhang vs. die Abgrenzung zwischen den Klassen bestimmte Grenzen unterschreiten

diese Verfahren müssen jeweils für jedes mehrdeutige Wort einzeln trainiert werden

schlechte Skalierbarkeit auf alle mehrdeutigen Wörter

Lexikon-basierte Ansätze

nutzen maschinenlesbare Lexika
Wortbeschreibung bzw. Vernetzung innerhalb des Lexikons wird mit Merkmalsvektor verglichen

Multi WSD:

iterativ erst einfache Wörter disambiguieren und später die dicken Fische, wenn also mehr Evidenz vorliegt
vergleich auch transformierendes POS-Tagging
andere Möglichkeiten der Suche in Zustandsräumen

Information Retrieval

Suchmaschine, wortbasiertes Indexing
basiert auf extremer lexikalischer Semantik (Bedeutung hängt nur an den (Such-)Wörtern, meist nichtmal an ihrer Reihenfolge): bag of words
Vektorraum-Modell:

Vektorraum mit sovielen Dimensionen wie es Lemmata in der Dokumentensammlung gibt

Lemma: Wort, "multi-word", Wortstamm, was genau ein Lemma sein soll, ist schwer zu entscheiden und hängt auch von den Anforderungen des Nutzers ab (soll nur "Häuser" oder auch "Haus" gefunden werden?)

jedem Dokument wird ein Vektor zugeordnet, indem er als bag of words angesehen wird und die Größe der Vektorkomponenten dem Vorkommen der Wörter entspricht
die zugeordneten Vektoren werden auf eine Länge normalisiert
Für Suchanfragen wird jeweils ein Referenzvektor gebildet, und die Dokumente zurückgeliefert, die dem Referenzvektor am ähnlichsten sind (den kleinsten Winkel zum Referenzvektor aufweisen)

Term-Gewichtung:

enorme wichtig für die Leistung des Systems
term frequency im Dokument: je häufiger ein Wort im Dokument, desto wichtiger ist es

eventuell noch die Position im Dokument (Titel?)
tf: Frequenz mit der ein Wort im Dokument vorkommt

term frequency in der ganzen Dokumentensammlung: was überall vorkommt ist wenig relevant

idf = log(N/n_i): inverse document frequency, mit N Zahl der Dokumente, n Zahl der Dokumente die den Term i enthalten

am Schluss steht ein komplexes Gewicht aus vielen Komponenten

einfach: w_i,j = tf_i,j × idf_i, mit Term i und Dokument j
meist kompliziertere Terme

Suchterme:

viel kürzer als Dokumente (~2.3 Wörter pro Anfrage)
stop-list: Wörter in der Liste werden ignoriert (Problem: "to be or not to be")
stemming, Groß-/Kleinschreibung
Homonymie, Polysemie: reduzieren precision, weil Wörter mit falschem Sinn gefunden werden. Lösungsmöglichkeit:

Terme in ähnlichen Kontexten aktivieren
(Spiegel + lesen -> Zeitschrift aktivieren, Spiegel + Gesicht -> Spiegelbild aktivieren)

Synonymie, Hyponymie: reduziert recall, weil ähnliche Begriffe nicht gefunden werden

Synsets aktivieren

Ergebnisverbesserung:

Clustering der Ergebnisse
iterative Verbesserung durch Vorauswahl durch den Nutzer ("ähnliche Seiten")

bedeutet, den Referenzvektor in die Richtung der relevanten Dokumente zu verschieben
schwierig zu evaluieren, weil "Verbesserung" durch den Nutzer erzeugt wird

Evaluation:

die Reihenfolge der Ergebnisse spielt eine Rolle, keine feste Zahl von zurückzuliefernden Ergebnissen
Recall/Precision-Diagramme

möglichst sollte die Precision mit höherem Recall nicht sinken

Weitere IR-Anwendungen

Kategorisierung von Dokumenten in Klassen

ähnlich WSD, größere Merksmalsvektoren
Filtern: binäre Kategorisierung

Clustering von Dokumenten

wie WSD mit unüberwachtem Lernen
nützlich als Folgeschritt nach IR um Ergebnisse zu sortieren
anderer Vorteil: Suche muss nur in einem relevanten Cluster ausgeführt werden und nicht in allen Dokumenten

Text-Segmentierung

Zerlegung des Dokuments in kleinere Einheiten
Berechnung der Ähnlichkeit zwischen benachbarten Einheiten
Zerlegung an Stellen an denen Ähnlichkeitssprünge beobachtet werden können

Textzusammenfassung

regelbasiert (ähnlich MT, erfordert "Verständnis" des Textes)
selektive Zusammenfassung: heuristische Gewichtung der Relevanz von Sätzen und Auswahl der relevantesten

letzte Änderung: 5. August 2006.

mail AT timobaumann.de