next up previous contents index
Nächste Seite: Ähnlichkeitsmaße Aufwärts: Berücksichtigung von ähnlichen TUs Vorherige Seite: Berücksichtigung von ähnlichen TUs   Inhalt   Index

Zugriff auf das Referenzmaterial

Die einfachste Art, Fuzzy-Matches zu finden, ist, alle Sätze der ausgangssprachlichen Seite des Referenzmaterial auf ihre Relevanz hin zu prüfen. Dieses Vorgehen hat aber den Nachteil, dass die Dauer der Suche das Produkt von der Anzahl der Sätze und der Dauer der Prüfung eines einzelnen Satzes ist. Durch eine Beschleunigung der Berechnung der Relevanz wird das Problem also nur verlagert, da eine Verdoppelung des Umfangs des Referenzmaterials auch den Suchaufwand wieder verdoppelt. Es sind andere Vorgehensweisen zur Ermittlung der in Frage kommenden Stellen notwendig, die sich bei steigendem Umfang besser verhalten.

Im Falle von genau übereinstimmenden Stellen reicht zur Lösung dieses Problems ein einfacher Index aus. Ein Index listet ähnlich einem Index in einem Buch alle Stellen auf, an denen ein Suchschlüssel im Text vorkommt. Der Schlüssel, mit dem im Index nachgeschlagen wird, ist hier nur kein Einzelwort, sondern der gesamte Satz.

Zum Finden von Fuzzy-Matches kann ein solcher Satzindex nicht verwendet werden. Ein Fuzzy-Match weist gewöhnlich nur wenige Änderungen auf. Die meisten Wörter stimmen also mit dem Anfragesatz überein. Ein naheliegendes Vorgehen wäre, einen Wortindex zu erstellen, der zu jedem Wort die Sätze (oder Satznummern) auflistet, in denen das jeweilige Wort vorkommt, und dann nur einzelne Wörter des Anfragesatzes für die Suche zu verwenden. Zwar würde man auf diese Weise viele Sätze untersuchen müssen, die nur wenig, u.U. nur das Anfragewort, mit dem Anfragesatz gemeinsam haben. Die Zahl der zu prüfenden Sätze kann so aber deutlich reduziert werden, insbesondere, wenn als Anfragewörter solche Wörter des Anfragesatzes ausgewählt werden, die im Referenzmaterial selten vorkommen. Mehrere Anfragewörter sind notwendig, da auch solche Fuzzy-Matches gefunden werden sollen, die das erste Anfragewort nicht enthalten. Im Allgemeinen müssen $ n+1$ Anfragen an den Wortindex gestellt werden, wenn $ n$ Änderungen erlaubt sein sollen. Die Anzahl der Sätze, die jede solche Anfrage liefert, wächst mit der Größe des Referenzmaterials: Wenn das Wort $ X$ mit der Wahrscheinlichkeit $ p$ in einem Satz auftritt, dann kann man erwarten, $ np$ Sätze prüfen zu müssen, wenn $ n$ die Anzahl der ausgangssprachlichen Sätze im Referenzmaterial ist. Die Anzahl der zu prüfenden Sätze wächst also wie im ersten Ansatz linear mit dem Umfang des Referenzmaterial.2.10

Im Abschnitt [*] wird ein Index beschrieben, der die Zahl der zu prüfenden Sätze im Vergleich zu diesem Ansatz sehr klein hält aber prinzipiell das gleiche Problem hat. Eine echte Lösung des Problems ist mir nicht bekannt. Da der benutzte Ansatz auf dem vorhandenen Textmaterial mehr als befriedigend schnell läuft, habe ich nicht nach Literatur gesucht. Eine Implementation einer Fuzzy-Match-Suche wird im Abschnitt [*] beschrieben.

() beschreiben auf Seite 38 ihrer Vergleichsstudie zu Ähnlichkeitsmaßen (s.u.) einige Methoden zum effizienten Zugriff auf das Referenzmaterial. Beispielsweise könnten viele Sätze bereits aufgrund ihrer Länge von der Suche ausgeschlossen werden. Wie () in ihrer Einleitung schreiben, kann die Suche nach Matches auch als Information Retrieval Aufgabe gesehen werden. Umfangreiche Literatur aus einem anderen Themenbereich ist also für Translation Memory relevant.



Fußnoten

... Referenzmaterial.2.10
Anfangs treten noch viele neue Wörter auf, die Anzahl der Einträge im Index wächst schnell und die Länge der Einträge nimmt scheinbar nur langsam zu. Mit zunehmender Größe des Index treten nicht indizierte Wörter immer seltener auf. Man könnte meinen, dass die Länge der Einträge nun schneller wachsen müsse. Das ist aber nicht der Fall. Die Wachstumsrate für den Eintrag $ X$ ist $ p$.

next up previous contents index
Nächste Seite: Ähnlichkeitsmaße Aufwärts: Berücksichtigung von ähnlichen TUs Vorherige Seite: Berücksichtigung von ähnlichen TUs   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie