next up previous contents index
Nächste Seite: Verwendung der Übersetzungsvorschläge Aufwärts: Berücksichtigung von ähnlichen TUs Vorherige Seite: Ähnlichkeitsmaße   Inhalt   Index

Einsatz flacher Analysestrukturen

Ein Wortalignment bietet sehr viel Spielraum für den Einsatz computerlinguistischer Methoden. Die Wortgruppen können auf linguistische Plausibilität hin geprüft werden, semantische Netze können eingesetzt werden, um die Ähnlichkeit unterschiedlicher Wörter zu messen und syntaktische Strukturen können ein hierarchisches Alignment induzieren. Aber auch ohne Wortalignment läßt sich linguistisches Wissen in ein Ähnlichkeitsmaß integrieren. Dazu folgen einige Beispiele.

() berücksichtigen bei der Bewertung nur die Grundformen der Wörter. Voraussetzung dafür ist, dass das Referenzmaterial und der Anfragesatz auf mit Grundformen annotiert sind. Das resultierende System wird von lexembasiertes TM, kurz LTM genannt.

Viele Ähnlichkeitsmaße, die für das Erstellen von Satzalignments zwischen verschiedensprachigen Texten entworfen wurden, lassen sich für den monolingualen Einsatz anpassen. Beispielsweise nutzt das Maß von () nur Wortarteninformationen aus. Sie bilden eine Linearkombination der Häufigkeiten einiger Wortarten im Ausgangssatz und vergleichen diese Zahl mit der Anzahl der Wörter aus offenen Wortklassen im Zielsatz. (Seite 121-124) Dies kann ohne Änderung für Sätze einer Sprache vorgenommen werden. Problematisch ist nur die Wahl der Gewichte der Linearkombination. Wenn keine Sätze als Trainingsmaterial vorliegen, die trotz unterschiedlicher Wortarthäufigkeiten den gleichen Inhalt haben, gibt es keinen Grund, Gewichte ungleich eins zu wählen.

() unterteilen das Referenzmaterial in mehrere Ebenen, die sie TELA-Ebenen nennen. Die einfachste Ebene enthält den Text als Zeichenfolge. Dann folgt eine Ebene, in der die Wörter isoliert sind. Weitere Ebenen speichern Schriftauszeichnungen, Informationen für die Indexverwaltung und Verweise. Darüber hinaus gibt es abgeleitete Ebenen, die flache Analysestrukturen enthalten. Abgeleitet bedeutet, dass sie jederzeit neu bestimmt werden können, nämlich durch die zugrunde liegende Analyse. Diese Ebenen annotieren Grundformen, Wortarten und unstrukturierte Phrasen, so genannte Chunks. skizzieren ein Matching-Verfahren, das je Wortposition die spezifischte Ebene ermittelt, auf der eine Übereinstimmung gefunden werden kann. Ein Beispiel ist angegeben, in dem ,,NTT really stayed strong Monday.`` und ,,Sony stayed stronger Tuesday.`` verglichen werden. Das erste und letzte Wort stimmen nur in der Wortart überein. Das zweite Wort wurde gelöscht. Dann folgt ein übereinstimmendes Wort. An der vorletzten Position stimmen die Grundformen, aber nicht die Wörter überein. Diese Informationen können benutzt werden, um die Unterschiede im Fuzzy-Match zu markieren. () haben jedoch eine Anwendung in der automatischen Übersetzung im Blick und erlauben zur Vereinfachung der Berechnung der Matches keine Einfügungen und Ersetzungen. Letzteres ist keine starke Einschränkung, da eine Ersetzung erst vorliegen würde, wenn an der Wortposition alle TELA-Ebenen nicht übereinstimmen.


next up previous contents index
Nächste Seite: Verwendung der Übersetzungsvorschläge Aufwärts: Berücksichtigung von ähnlichen TUs Vorherige Seite: Ähnlichkeitsmaße   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie