Die vielen Fuzzy-Matches -- insgesamt sind es 4476 -- müssen genauer betrachtet werden, um die Frage nach der Belegsituation beantworten zu können. Es soll bestimmt werden, wie viele Fuzzy-Matches tatsächlich relevant sind. Interessant ist weiter, welche Arten von Fuzzy-Matches wie häufig auftreten. Dazu werden weiter unten Klassen definiert, die zur Annotation der Fuzzy-Matches verwendet werden sollen.
Alle Fuzzy-Matches manuell zu beurteilen wäre mit einem großen Zeitaufwand verbunden. Dies könnte vermieden werden, wenn sich herausstellt, dass das Ähnlichkeitsmaß die Relevanz gut vorhersagt.
Um möglichst früh ein Bild über den Zusammenhang von Ähnlichkeit und Klasse der Fuzzy-Matches zu erhalten, werden zuerst solche mit möglichst verschiedenen Ähnlichkeitswerten klassifiziert. Dann werden Lücken in Wertebereichen geschlossen, in denen unterschiedliche Klassen auftreten.
Die absoluten Ähnlichkeitswerte sind ungeeignet für die Auswahl, da kleine Werte dominieren. Verwendet wird der Rang in der sortierten Liste der Werte. Das bedeutet, dass in der ersten Arbeitsphase zwischen je zwei zur Klassifikation ausgewählten Fuzzy-Matches in etwa gleich viele nicht ausgewählte liegen sollen.
Da der Vergleich von Fuzzy-Match und Anfragesatz das aufmerksame Lesen der Sätze erfordert, ist es sinnvoll, alle Fuzzy-Matches zu einem Satz der Stichprobe in einen Arbeitsgang zu annotieren. Prinzipiell erfordert dies keine Änderung am obigen Auswahlverfahren. Jedoch sind zu einem Satz der Stichprobe die jeweils besten Matches besonders interessant. Es wurde daher für jeden Satz der Stichprobe der Durchschnitt der Ähnlichkeitswerte der besten vier Fuzzy-Matches bestimmt und die Auswahl auf Grundlage dieser Werte vorgenommen.
Wo die Grenze zwischen relevanten und irrelevanten Fuzzy-Matches zu ziehen ist, kann nicht im Allgemeinen beantwortet werden und hängt von der Anwendung ab. Im Falle eines Translation Memorys spielt die Arbeitsweise des Übersetzers sicherlich eine Rolle.
Verschiedene Klassen von Fuzzy-Matches können
unterschieden werden.
Bereits eingeführt wurden Exact-Match und Subsegment-Match.
Für einen Subsegment-Match wird hier verlangt, dass eine Folge
von mindestens acht Token übereinstimmt.
Kürzere Subsegmente können einen Term-Match begründen, wenn
es sich um einen gebräulichen Ausdruck, eine Kollokation
oder einen Fachausdruck handelt.
Ansonsten wird der Inhalt betrachtet.3.49
listet die festgelegten Klassen auf.
Die Grenzen zwischen den vier Klassen von ,,fast gleicher Inhalt``
bis ,,ähnlicher Inhalt`` sind schwer zu ziehen und haben sich
während der Klassifikationsarbeit vermutlich verschoben.
Die Klassen bilden keine lineare Skala.
Beispielsweise sind die Pole ,,enthält mehr/weniger`` unabhängig
vom Grad der inhaltlichen Ähnlichkeit.
Um die Klassifikation leichter mit den Trigramm-Ähnlichkeitswerten vergleichen zu können, werden den Klassen die in der Tabelle angegebenen Relevanzwerte zugewiesen. Als Indikator für die Güte der Belegsituation wird der Mittelwert der Relevanzwerte der besten vier Fuzzy-Matches jedes Stichprobensatzes bestimmt.
Für die Annotation der Klassen wurde eine webbasierte Anwendung implementiert, die ein sequentielles Wortalignment von Anfragesatz und Fuzzy-Match tabellarisch präsentiert und vom Benutzer die Klassifikation entgegennimmt. Zusätzlich werden mit dem Trigramm-Ähnlichkeitsmaß auffindbare Entsprechungen (einschließlich Überkreuzungen) farblich hervorgehoben. Der Annotator kann Übereinstimmungen an den Tabellenzeilen und Farbmustern schnell erkennen und kann sich so auf den Inhalt der Sätze konzentrieren.
Das Tool identifiziert automatisch Exact-Matches, Subsegment-Matches, Matches, die nur wenige Tippfehler enthalten, und Matches ohne Relevanz. Der Benutzer bestimmt aber grundsätzlich die Klasse eines Fuzzy-Matches im Dialog mit der Software. Das Tool unterbreitet nur Klassifikationsvorschläge.
Abbildung
zeigt die Anwendung mit einem
Fuzzy-Match aus dem EU-Teilkorpus.
Die linke Tabellenspalte enthält den Anfragesatz.
Rechts sieht man den zu klassifizierenden Fuzzy-Match.
In den Zeilen der Tabelle werden abwechselnd
unterschiedliche und übereinstimmende Tokenfolgen gegenübergestellt.
Verschiedene Hintergrundfarben, die im Schwarzweißdruck
gleich erscheinen, kennzeichnen die Zeilen.
Die Hervorhebung einzelner Wörter können dagegen auch im Druck
teilweise erkannt werden.
In der farbigen Darstellung springen Entsprechungen wie von
,,Konzentration`` und ,,konzentriert`` und von ,,Stillegung``
und ,,stillgelegt`` schnell ins Auge, da nur das Fehlen einer Farbe
in einer Zeile entdeckt und die Stelle ihres Auftretens gefunden
werden muss.
Unten links wird in einer Auswahlliste die Klasse annotiert.
Das Sternchen zeigt an, dass der Fuzzy-Match bereits annotiert
wurde.
Der Benutzer kann beliebig oft die Klassifikation ändern.
Innerhalb der Fuzzy-Matches eines Stichprobensatzes kann mit dem
Rollbalken (rechts außen) gewechselt werden.
Für die einzelnen Sätze der Stichprobe gibt es eine Auswahlseite.
Ein Nachteile dieser Form der Annotation sollen nicht verschwiegen werden, nämlich die Reihenfolge, in der die Fuzzy-Matches zur Klassifikation vorgelegt werden. Innerhalb eines Anfragesatzes sind die Matches absteigend nach ihrer Ähnlichkeit zum Anfragesatz geordnet. Dies kann dazu verleiten, eine entsprechende Ordnung der Klassen anzunehmen. Besser wäre es, die Reihenfolge zu randomisieren. Mit diesem Problem einher geht die Anzeige der Ähnlichkeitswerte. Sie sollte während der Annotationsarbeit unterbleiben.