Die einfachste Art, Fuzzy-Matches zu finden, ist, alle Sätze der ausgangssprachlichen Seite des Referenzmaterial auf ihre Relevanz hin zu prüfen. Dieses Vorgehen hat aber den Nachteil, dass die Dauer der Suche das Produkt von der Anzahl der Sätze und der Dauer der Prüfung eines einzelnen Satzes ist. Durch eine Beschleunigung der Berechnung der Relevanz wird das Problem also nur verlagert, da eine Verdoppelung des Umfangs des Referenzmaterials auch den Suchaufwand wieder verdoppelt. Es sind andere Vorgehensweisen zur Ermittlung der in Frage kommenden Stellen notwendig, die sich bei steigendem Umfang besser verhalten.
Im Falle von genau übereinstimmenden Stellen reicht zur Lösung dieses Problems ein einfacher Index aus. Ein Index listet ähnlich einem Index in einem Buch alle Stellen auf, an denen ein Suchschlüssel im Text vorkommt. Der Schlüssel, mit dem im Index nachgeschlagen wird, ist hier nur kein Einzelwort, sondern der gesamte Satz.
Zum Finden von Fuzzy-Matches kann ein solcher Satzindex nicht verwendet
werden.
Ein Fuzzy-Match weist gewöhnlich nur wenige Änderungen auf.
Die meisten Wörter stimmen also mit dem Anfragesatz überein.
Ein naheliegendes Vorgehen wäre, einen Wortindex zu erstellen, der
zu jedem Wort die Sätze (oder Satznummern) auflistet, in denen das
jeweilige Wort vorkommt, und dann nur einzelne Wörter des Anfragesatzes
für die Suche zu verwenden.
Zwar würde man auf diese Weise viele Sätze untersuchen müssen, die
nur wenig, u.U. nur das Anfragewort, mit dem Anfragesatz
gemeinsam haben.
Die Zahl der zu prüfenden Sätze kann so aber deutlich reduziert werden,
insbesondere, wenn als Anfragewörter solche Wörter des Anfragesatzes
ausgewählt werden, die im Referenzmaterial selten vorkommen.
Mehrere Anfragewörter sind notwendig, da auch solche Fuzzy-Matches
gefunden werden sollen, die das erste Anfragewort nicht enthalten.
Im Allgemeinen müssen
Anfragen an den Wortindex gestellt werden,
wenn
Änderungen erlaubt sein sollen.
Die Anzahl der Sätze, die jede solche Anfrage liefert, wächst mit der
Größe des Referenzmaterials:
Wenn das Wort
mit der Wahrscheinlichkeit
in einem Satz auftritt,
dann kann man erwarten,
Sätze prüfen zu müssen, wenn
die
Anzahl der ausgangssprachlichen Sätze im Referenzmaterial ist.
Die Anzahl der zu prüfenden Sätze wächst also wie im ersten Ansatz linear mit
dem Umfang des Referenzmaterial.2.10
Im Abschnitt
wird ein Index beschrieben, der die
Zahl der zu prüfenden Sätze im Vergleich zu diesem Ansatz sehr klein
hält aber prinzipiell das gleiche Problem hat.
Eine echte Lösung des Problems ist mir nicht bekannt.
Da der benutzte Ansatz
auf dem vorhandenen Textmaterial mehr als befriedigend schnell läuft,
habe ich nicht nach Literatur gesucht.
Eine Implementation einer Fuzzy-Match-Suche wird
im Abschnitt
beschrieben.
() beschreiben auf Seite 38 ihrer Vergleichsstudie zu Ähnlichkeitsmaßen (s.u.) einige Methoden zum effizienten Zugriff auf das Referenzmaterial. Beispielsweise könnten viele Sätze bereits aufgrund ihrer Länge von der Suche ausgeschlossen werden. Wie () in ihrer Einleitung schreiben, kann die Suche nach Matches auch als Information Retrieval Aufgabe gesehen werden. Umfangreiche Literatur aus einem anderen Themenbereich ist also für Translation Memory relevant.