SLP Notizen
Teil III: Semantik
Kapitel 17: Word Sense Disambiguation und Information Retrieval
Inhalt
- Semantische Disambiguierung durch selektive Restriktionen
- arbeitet auf Strukturen, integrierte Erstellung von Bedeutungsrepräsentationen
- Typ-Hierarchien und Selectional Restriction
- Restriktionen zwischen Verben und ihren thematischen Rollen.
- Beispiel: Spiegel lesen vs. Spiegel putzen
- lesen und putzen fordern unterschiedliche Patienz-Typen, damit kann dishes disambiguiert werden
- nur zueinander passende Restriktionen können ausgewählt werden
- ähnlich Features + Unifizierung
- Probleme:
- Unterspezifizierung in Fragen: Ich möchte den Spiegel kaufen. -> Pragmatik, Diskurswissen
- Negation (sowieso problematisch) TODO: gibt es dazu eine Abhandlung?
- eindeutige Verletzung (aber einzige Parsing-Möglichkeit: Der Elefant flog durch die Luft)
- kreativer Gebrauch: Metonymie und Metaphern
- Lösungen:
- probabilistische Ansätze (Präferenzen statt Restriktionen)
- sogenannte selektive Assoziation statt Restriktion
- insgesamt Problem: erfordert zunächst korrektes
Syntax-Parsing, dann umfangreiches Wissen über
Präferenzen/Restriktionen
- Robuste WSD
- unabhängig von syntaktischen und semantischen Strukturen
- Funktionalität mit POS-Tagger vergleichbar
- Maschinelles Lernen um dem Problem beizukommen
- Eingabe: Merkmalsvektoren
- collocation (Anordnung): benachbarte Wörter und Wortarten stehen (der Reihenfolge nach) im Merkmalsvektor
- co-occurence: Wörter (sinnbehaftete) die in der Nachbarschaft vorkommen kommen im Merkmalsvektor vor
- zusätzlich können morphologische Methoden oder
partielles Parsing durchgeführt werden (z. B. thematische Rollen
im Merkmalsvektor)
- überwachtes Lernen
- naive Bayes-Klassifikation
- ŝ = argmaxs∈S P(s|V), mit S Menge der möglichen Wortbedeutungen, V Merkmalsvektor
- immer den in Angesicht des Merkmalsvektors wahrscheinlichsten Wortsinn zurückgeben
- umgekehrte (Bayessche) Wahrscheinlichkeit und
Unabhängigkeitsannahme bezüglich der Komponenten des
Merkmalsvektors und Vernachlässigung der absoluten
Wahrscheinlichkeit für den Merkmalsvektor (ist für alle s∈S gleich) führt zu:
- ŝ = argmaxs∈S P(s) Prod P(vj|s) für j aus 1 .. n
- Smoothing, backoff, ...
- Data-Sparsity
- Training: Statistiken über die Nachbarschaften (bzw. was sonst im Merkmalsvektor steht) der mehrdeutigen Wörter
- Decision list Klassifizierung
- simpler als Decision Trees, TODO: aber ähnlich mächtig?
- lange Liste von case-Statements (Ja-Nein-Fragen), am Ende Mehrheitsentscheidung als Default
- Training: Auswahl der richtigen Fragen in der richtigen Reihenfolge
- ein Trainingsverfahren: jedes Feature/Bedeutungspaar ist
ein Test, Anordnung gemäß log-likelihood ratio:
abs(log(P(Sense1|f=v)/P(Sense2|f=v)))
- komplett anderes Lernverfahren in Russel und Norvig (2003)
- braucht große Mengen klassifizierter Daten
- bootstrapping
- Verfahren das mit wenigen Saat-Annotierungen auskommt
- Auswahl bestimmter "prototypischer" Verwendungen
- Handannotation einiger zufälliger Verwendungen
- Ableitung aus maschinenlesbarem Lexikon
- kann mit jedem Algorithmus für überwachtes lernen kombiniert werden, wenn:
- dafür muss der Klassifizierer seine Konfidenz bei Entscheidungen mitteilen können
- zunächst lernt er an wenigen Beispielen, klassifizert und nutzt "sichere" Klassifizierungen um weiterzulernen
- unüberwachtes Lernen
- viele unterschiedliche Verfahren
- eins: jedes Vorkommen ist zunächst eine eigene Klasse,
die zwei ähnlichsten Klassen werden solange verschmolzen, bis die
gewünschte Zahl Klassen erreicht ist, bzw. der innere Zusammenhang
vs. die Abgrenzung zwischen den Klassen bestimmte Grenzen unterschreiten
- diese Verfahren müssen jeweils für jedes mehrdeutige Wort einzeln trainiert werden
- schlechte Skalierbarkeit auf alle mehrdeutigen Wörter
- Lexikon-basierte Ansätze
- nutzen maschinenlesbare Lexika
- Wortbeschreibung bzw. Vernetzung innerhalb des Lexikons wird mit Merkmalsvektor verglichen
- Multi WSD:
- iterativ erst einfache Wörter disambiguieren und später die dicken Fische, wenn also mehr Evidenz vorliegt
- vergleich auch transformierendes POS-Tagging
- andere Möglichkeiten der Suche in Zustandsräumen
- Information Retrieval
- Suchmaschine, wortbasiertes Indexing
- basiert auf extremer lexikalischer Semantik (Bedeutung
hängt nur an den (Such-)Wörtern, meist nichtmal an ihrer
Reihenfolge): bag of words
- Vektorraum-Modell:
- Vektorraum mit sovielen Dimensionen wie es Lemmata in der Dokumentensammlung gibt
- Lemma: Wort, "multi-word", Wortstamm, was genau ein Lemma
sein soll, ist schwer zu entscheiden und hängt auch von den
Anforderungen des Nutzers ab (soll nur "Häuser" oder auch "Haus"
gefunden werden?)
- jedem Dokument wird ein Vektor zugeordnet, indem er als bag
of words angesehen wird und die Größe der Vektorkomponenten
dem Vorkommen der Wörter entspricht
- die zugeordneten Vektoren werden auf eine Länge normalisiert
- Für Suchanfragen wird jeweils ein Referenzvektor
gebildet, und die Dokumente zurückgeliefert, die dem
Referenzvektor am ähnlichsten sind (den kleinsten Winkel zum
Referenzvektor aufweisen)
- Term-Gewichtung:
- enorme wichtig für die Leistung des Systems
- term frequency im Dokument: je häufiger ein Wort im Dokument, desto wichtiger ist es
- eventuell noch die Position im Dokument (Titel?)
- tf: Frequenz mit der ein Wort im Dokument vorkommt
- term frequency in der ganzen Dokumentensammlung: was überall vorkommt ist wenig relevant
- idf = log(N/ni): inverse document frequency, mit N Zahl der Dokumente, n Zahl der Dokumente die den Term i enthalten
- am Schluss steht ein komplexes Gewicht aus vielen Komponenten
- einfach: wi,j = tfi,j × idfi, mit Term i und Dokument j
- meist kompliziertere Terme
- Suchterme:
- viel kürzer als Dokumente (~2.3 Wörter pro Anfrage)
- stop-list: Wörter in der Liste werden ignoriert (Problem: "to be or not to be")
- stemming, Groß-/Kleinschreibung
- Homonymie, Polysemie: reduzieren precision, weil Wörter
mit falschem Sinn gefunden werden.
Lösungsmöglichkeit:
- Terme in ähnlichen Kontexten aktivieren
- (Spiegel + lesen -> Zeitschrift aktivieren, Spiegel + Gesicht -> Spiegelbild aktivieren)
- Synonymie, Hyponymie: reduziert recall, weil ähnliche Begriffe nicht gefunden werden
- Ergebnisverbesserung:
- Clustering der Ergebnisse
- iterative Verbesserung durch Vorauswahl durch den Nutzer ("ähnliche Seiten")
- bedeutet, den Referenzvektor in die Richtung der relevanten Dokumente zu verschieben
- schwierig zu evaluieren, weil "Verbesserung" durch den Nutzer erzeugt wird
- Evaluation:
- die Reihenfolge der Ergebnisse spielt eine Rolle, keine feste Zahl von zurückzuliefernden Ergebnissen
- Recall/Precision-Diagramme
- möglichst sollte die Precision mit höherem Recall nicht sinken
- Weitere IR-Anwendungen
- Kategorisierung von Dokumenten in Klassen
- ähnlich WSD, größere Merksmalsvektoren
- Filtern: binäre Kategorisierung
- Clustering von Dokumenten
- wie WSD mit unüberwachtem Lernen
- nützlich als Folgeschritt nach IR um Ergebnisse zu sortieren
- anderer Vorteil: Suche muss nur in einem relevanten Cluster ausgeführt werden und nicht in allen Dokumenten
- Text-Segmentierung
- Zerlegung des Dokuments in kleinere Einheiten
- Berechnung der Ähnlichkeit zwischen benachbarten Einheiten
- Zerlegung an Stellen an denen Ähnlichkeitssprünge beobachtet werden können
- Textzusammenfassung
- regelbasiert (ähnlich MT, erfordert "Verständnis" des Textes)
- selektive Zusammenfassung: heuristische Gewichtung der Relevanz von Sätzen und Auswahl der relevantesten
letzte Änderung: 5. August 2006.
mail AT timobaumann.de