Zu jedem der 510 Sätze der Stichprobe werden 11 Fuzzy-Matches aus der Datenbank abgefragt. Da der Anfragesatz selbst in der Datenbank vorhanden ist, sind unter den Treffern zehn neue Fundstellen.3.42
In Folgendem wird beschrieben, wie die Fuzzy-Matches ermittelt werden.
Wie bereits in Abschnitt
erwähnt, habe ich keine
Literatur zu diesem Spezialthema gesucht.
Eine Implementation des im Abschnitt
skizzierten Ansatzes
schien mit den im KoKS-System vorhandenen Komponenten leicht umsetzbar
zu sein.
Wie in der nachfolgenden Darstellung deutlich wird, mussten jedoch mehrere
Detailprobleme gelöst werden.
Im ersten Teil der Fuzzy-Match-Suche wird die Kandidatenmenge
soweit eingeschränkt, dass nur ein kleiner Teil des Gesamtkorpus
genauer geprüft werden muss.
Im wesentlichen wird dazu die im Abschnitt
Methode zum Zugriff auf Sätze, die eine Teilmenge der Token des
Anfragesatzes enthalten, verwendet.
Verwendet man nur die Token des Anfragesatzes für die Suche im Korpus, dann werden Abweichungen in der Flexion genauso behandelt wie Ersetzungen durch andere Wörter. Hat der Satz sonst nicht genug Wörter mit dem Anfragsatz gemeinsam, wird er nicht in die Menge der Kandidat aufgenommen. Ein solcher Fall kann beispielsweise eintreten, wenn das Subjekt eines kurzen Satzes den Numerus wechselt. Verb, Nomen, Artikel und Adjektive, die zum Subjekt gehören, können sich dann geringfügig verändern, sodass die Sätze auf Tokenebene wenig oder nichts gemeinsam haben.
Das Problem könnte leicht mit einer Suche mittels der annotierten
Grundformen gelöst werden, wenn die Annotation eindeutig und
vollständig wäre.
Der Tagger annotiert jedoch Grundformlisten, wenn die Grundform nicht
eindeutig aus dem Lexikon des Taggers hervorgeht, oder gar keine
Grundform, wenn die Vollform unbekannt ist.
(Siehe auch Abschnitt
.)
Im letzteren Fall kann nur mit dem Token gesucht werden.
Der erste Fall kann sowohl im Anfragesatz als auch im Korpus
auftreten.
Für die Suche werden daher sämtliche Grundformlisten zusammengestellt,
die eine Grundform enthalten, die in der Liste der Grundformen des
Anfragetokens vorkommen.
(Eindeutige Grundformannotationen werden dabei als einelementige Listen
behandelt.)
Beispielsweise werden zum Token ,,fiel`` die drei Grundformlisten
,,fallen``, ,,fallen, gefallen`` und ,,fallen, fällen`` gebildet.
Diese Aufgabe wird mit der im Abschnitt
beschriebenen Grundformentabelle effizient durchgeführt.
Da bei der Abfrage von Fundstellen zu Grundformlisten grundsätzlich die Tokentupeltabelle verwendet wird, übersetzt die Datenbank implizit jede Grundformliste in die Menge der Token, die mit ihr annotiert wurden. Es wird also für jedes Anfragetoken mit einer Menge von Token nach Fundstellen gesucht. Im Fall, dass direkt mit dem Anfragetoken gesucht wird, ist die Menge einelementig. Die Menge enthält aber auch im anderen Fall immer das Anfragetoken.3.43Daher wird dieser Schritt hier als Expansion der Anfragetoken bezeichnet.
Als nächstes wird für jedes expandierte Anfragetoken die ungefähre Häufigkeit im Korpus ermittelt, um zu entscheiden, welche Token für die Suche im Korpus benutzt werden. Die Häufigkeit des Anfragetokens und der zusammengestellten Grundformen wird in Tabellen der häufigsten tausend Token bzw. Grundformen nachgeschlagen. (Die Werte sind nicht exakt, da die Tabellen nicht auf dem aktuellen Stand des Korpus sind.) Ist keine der Formen in den Häufigkeitstabellen gelistet, wird die Häufigkeit null unterstellt. Sie wird hier verwendet, um seltene Token zu kennzeichnen, und bedeutet nicht etwa, dass das Token nicht im Korpus aufträte.
Ein expandiertes Token wird für die Suche im Korpus herangezogen, wenn dessen Häufigkeit unter einem Schwellwert liegt, der in etwa die häufigsten 200 Token ausschließt. Wenn weniger als acht Token ausgewählt werden, wird die Schwelle abhängig von der bisherigen Anzahl der selektierten Token moderat erhöht. Nur wenn die Anzahl trotzdem unter zwei bleibt, wird die Schwelle so weit erhöht, dass selbst Formen von ,,sein``, ,,werden`` (Deutsch) und ,,have`` (Englisch) ausgewählt werden.
Die Beschränkung auf nicht zu häufige Token hat große Ähnlichkeit mit der Verwendung von so genannten Stoppwortlisten, die nicht zu berücksichtigende Wörter benennen. Hier würde eine solche Liste alle Wörter enthalten, die keinen Beitrag zur Einschränkung der Kandidatenmenge erwarten lassen. Der Unterschied des hier gewählten Auswahlverfahrens zu Stoppwortlisten ist die Anpassung der Häufigkeitsschwelle an die Zahl der bisher aufgenommenen Token. Beispielsweise werden zu der Anfrage ,,Sein oder nicht sein.`` die Anfragetoken ,,oder`` und ,,nicht`` verwendet, obwohl sie auf den Häufigkeitsrängen 109 und 47 stehen.3.44Der beste Fuzzy-Match ,,Sein oder Nichtsein`` wird in den Wörterbüchern des KoKS Systems gefunden. (Zur Berwertung der Güte eines Treffers siehe weiter unten.) Der zweitbeste Treffer ,,Oder nicht¿` stammt aus dem Harry Potter Korpus (Band 4, Kapitel ,,Der Todesser``). Mit einer Stoppwortliste hätte kein expandiertes Token für den Korpuszugriff zur Verfügung gestanden, sodass die Treffermenge leer gewesen wäre.
Die Zahl
, die angibt, wie viele der
ausgewählten Anfragetoken in einem Satz vorkommen müssen, damit
er in die Kandidatenmenge für die Fuzzy-Matches aufgenommen wird,
ist der zweite Faktor, der die Auswahl der Kandidaten steuert.
Je kleiner
gewählt wird, desto mehr Sätze werden als Fuzzy-Match
in Betracht gezogen.
Für ein Translation Memory, das nur ganze Sätze mit geringem Korrekturbedarf
als Übersetzungsvorschläge anbieten will,
würde es Sinn machen, nur eine feste Anzahl von Abweichungen zu
erlauben.
Wenn beispielsweise maximal zwei Wörter unterschiedlich sein dürfen,
könnte man
wählen.
Dagegen muss ein kleiner Wert für
eingesetzt werden, wenn
auch Sätze mit wenigen Übereinstimmungen gefunden werden sollen.
Ein sehr kleiner Wert, z.B.
, könnte zum Auffinden
von kurzen Satzfragmenten, so genannte Subsegment-Matches, dienen.
Hierbei ist wichtig, dass häufige Token zuvor von der Suche
ausgeschlossen wurden, da sonst viele irrelevante Sätze gefunden
werden, die nur in Artikeln, Präpositionen, Konjunktionen oder
anderen häufigen Wörtern mit dem Anfragesatz übereinstimmen.3.45
Für die Fuzzy-Matches der Stichprobe wurde
min
gesetzt,
um die Anzahl der auszuführenden Korpusanfragen
klein zu halten.
Sie liegt in O(
), da
in der Anzahl
mit
höchstens in der dritten Potenz auftreten kann.
Mit dieser Wahl von
werden viele Sätze als Kandidaten
zugelassen.
Nur selten sollten also relevante Sätze nicht enthalten sein.
Die zusätzliche Zeit, die die Verarbeitung der großen
Kandidatenmenge erfordert, ist hier anders als in einer
interaktiven TM-Anwendung kein Hindernis.
Zu jedem ausgewählten Anfragetoken werden zuerst
die Satznummern der Sätze bestimmt, in denen eine Form des
expandierten Tokens auftritt.
Jeweils
Satznummerlisten werden dann geschnitten, um
die Sätze zu ermitteln, in denen mindestens
Anfragetoken
vorkommen.
Die Vereinigung aller
Schnitte ergibt schließlich
die Kandidatenmenge.
Auf Seite
im Abschnitt
sind diese Operationen als Formel notiert.
Im Abschnitt
ist der Spezialfall mit
beschrieben.
Aus der Kandidatenmenge können die Sätze, die als Fuzzy-Matches
gelten sollen, mit aufwendigeren Methoden ausgewählt werden, da
diese Menge wesentlich kleiner ist als das Gesamtkorpus.
Im Abschnitt
werden Möglichkeiten angedeutet,
wie linguistisches Wissen in die Bewertung der Relevanz der
Kandidaten einbezogen werden kann, und auf ()
verwiesen, die mehrere Ähnlichkeitsmaße daraufhin untersuchen,
wie sie die Qualität der Übersetzungsvorschläge in einer
TM-Anwendung beeinflussen.
Auch hier wird ein Ähnlichkeitsmaß, das den Grad der Übereinstimmung
von Anfragesatz und Kandidat bestimmt, als Maß der Relevanz verwendet.
Es handelt sich um ein einfaches, zeichenbasiertes Maß, das im KoKS-Projekt
entwickelt wurde.
Das Ähnlichkeitsmaß stützt sich nicht auf einzelne Zeichen, sondern
auf alle Sequenzen von drei Zeichen, die im Satz auftreten.
Diese Sequenzen nennt man Trigramme.
Seien
und
die Häufigkeiten der Trigramme
in den
zu vergleichenden Zeichenfolgen.
Dann wird als Ähnlichkeit
der Wert
Zu den nachfolgend angegebenen Zahlen sollte erwähnt werden, dass
Leerzeichen am Anfang und Ende der Zeichfolgen hinzugefügt und
die Klein-/Großschreibung und Satzzeichen ignoriert werden.
Im KoKS-Abschlussbericht
auf Seite 57 bis 62
beschreiben
()
das Ähnlichkeitsmaß detailiert
und geben viele Beispiele für den bilingualen
Anwendungsfall an.3.47Hier sind neue Beispiele nötig, da die zu vergleichenden Sätze
bei der Fuzzy-Match Suche einsprachig sind.
Tabelle
zeigt für sieben Zeichenfolgen die
Ähnlichkeitswerte aller Paare.
Beispielsweise wird den Zeichenfolgen ,,Baumes`` und ,,Baumschatten``
eine Ähnlichkeit von
zugeschrieben.
(Drei von 15 Trigrammen, nämlich ,, ba``, ,,bau`` und ,,aum``,
treten in beiden Zeichenfolgen auf.)
Die Tabelle ist symmetrisch um die Diagonale, da das Maß symmetrisch
ist.
Der konstruierte Satz
soll hier als Beispiel dienen.
Er wurde so gewählt, dass unterschiedliche Kombinationen von
Anfragetoken zu Fuzzy-Match-Kandidaten führen.
Folgende acht Token werden ausgewählt:
0: Schatten, 1: Baumes, 2: Spinnen, 3: fangen,
4: langen, 5: sehr, 6: man, 7: gut.
Angegeben sind Indexnummern, die im Folgenden verwendet werden.
Die Reihenfolge der Token ist aufsteigend mit der festgestellten
Häufigkeit.
Es wird
min
gesetzt.
Nur neun der
möglichen Kombinationen von
Anfragetoken ergeben Kandidaten:
Schnitt [0, 1, 2]: 2 Kandidaten Schnitt [0, 1, 4]: 2 Kandidaten Schnitt [0, 4, 6]: 1 Kandidat Schnitt [1, 4, 7]: 1 Kandidat Schnitt [2, 3, 4]: 2 Kandidaten Schnitt [4, 5, 6]: 1 Kandidat Schnitt [4, 5, 7]: 2 Kandidaten Schnitt [4, 6, 7]: 1 Kandidat Schnitt [5, 6, 7]: 4 Kandidaten Vereinigung: 16 Kandidaten
Hier ist die Summe der Anzahlen in den einzelnen Schnitten gleich der
Mächtigkeit der Vereinigung.
Dies ist ungewöhnlich und bedeutet, dass die Schnitte paarweise
disjunkt sind.
Mit
hätte man zu dem Beispielsatz folglich keine Kandidaten
erhalten.
|
Wie für die Stichprobe werden die elf Kandidaten mit der größten
Ähnlichkeit zum Anfragesatz als Fuzzy-Matches übernommen.
Tabelle
zeigt die Fuzzy-Matches geordnet nach Relevanz.
Von den fünf übrigen nicht aufgeführten Kandidaten sind vier
wesentlich länger als der schon lange elfte Fuzzy-Match und stammen
aus dem EU Korpus.
Der 16. Kandidat ist zwar kurz, hat aber nur ,,sehr``, ,,gut`` und
,,man`` mit dem Anfragesatz gemeinsam.
Die Fuzzy-Matches (und auch die übrigen Kandidaten) zu diesem Beispielsatz sind nur sehr eingeschränkt oder gar nicht für die Übersetzung des Anfragesatzes nützlich. Lediglich die Phrasen ,,Schatten der Bäume`` und ,,die langen Schatten der Bäume`` lassen irgendeine Hilfe erwarten, die über eine reine Einzelwortübersetzung hinausgeht. Da selbst solche Kandidaten noch von der entwickelten Fuzzy-Match-Suche ermittelt werden, kann man hoffen, dass nur sehr wenige relevante Korpusstellen übersehen werden.3.48