next up previous contents index
Nächste Seite: Ergebnisse Aufwärts: Belegsituation Vorherige Seite: Ermittlung der Fuzzy-Matches   Inhalt   Index

Unterabschnitte

Klassifikation der Fuzzy-Matches

Die vielen Fuzzy-Matches -- insgesamt sind es 4476 -- müssen genauer betrachtet werden, um die Frage nach der Belegsituation beantworten zu können. Es soll bestimmt werden, wie viele Fuzzy-Matches tatsächlich relevant sind. Interessant ist weiter, welche Arten von Fuzzy-Matches wie häufig auftreten. Dazu werden weiter unten Klassen definiert, die zur Annotation der Fuzzy-Matches verwendet werden sollen.

Alle Fuzzy-Matches manuell zu beurteilen wäre mit einem großen Zeitaufwand verbunden. Dies könnte vermieden werden, wenn sich herausstellt, dass das Ähnlichkeitsmaß die Relevanz gut vorhersagt.

Bearbeitungsreihenfolge

Um möglichst früh ein Bild über den Zusammenhang von Ähnlichkeit und Klasse der Fuzzy-Matches zu erhalten, werden zuerst solche mit möglichst verschiedenen Ähnlichkeitswerten klassifiziert. Dann werden Lücken in Wertebereichen geschlossen, in denen unterschiedliche Klassen auftreten.

Die absoluten Ähnlichkeitswerte sind ungeeignet für die Auswahl, da kleine Werte dominieren. Verwendet wird der Rang in der sortierten Liste der Werte. Das bedeutet, dass in der ersten Arbeitsphase zwischen je zwei zur Klassifikation ausgewählten Fuzzy-Matches in etwa gleich viele nicht ausgewählte liegen sollen.

Da der Vergleich von Fuzzy-Match und Anfragesatz das aufmerksame Lesen der Sätze erfordert, ist es sinnvoll, alle Fuzzy-Matches zu einem Satz der Stichprobe in einen Arbeitsgang zu annotieren. Prinzipiell erfordert dies keine Änderung am obigen Auswahlverfahren. Jedoch sind zu einem Satz der Stichprobe die jeweils besten Matches besonders interessant. Es wurde daher für jeden Satz der Stichprobe der Durchschnitt der Ähnlichkeitswerte der besten vier Fuzzy-Matches bestimmt und die Auswahl auf Grundlage dieser Werte vorgenommen.

Klassen

Wo die Grenze zwischen relevanten und irrelevanten Fuzzy-Matches zu ziehen ist, kann nicht im Allgemeinen beantwortet werden und hängt von der Anwendung ab. Im Falle eines Translation Memorys spielt die Arbeitsweise des Übersetzers sicherlich eine Rolle.

Verschiedene Klassen von Fuzzy-Matches können unterschieden werden. Bereits eingeführt wurden Exact-Match und Subsegment-Match. Für einen Subsegment-Match wird hier verlangt, dass eine Folge von mindestens acht Token übereinstimmt. Kürzere Subsegmente können einen Term-Match begründen, wenn es sich um einen gebräulichen Ausdruck, eine Kollokation oder einen Fachausdruck handelt. Ansonsten wird der Inhalt betrachtet.3.49

Tabelle: Klassifikation der Fuzzy-Matches
Klasse Relevanz
Exact-Match 100 %
nur Tippfehler 95 %
gleicher Inhalt 90 %
fast gleicher Inhalt 85 %
enthält etwas mehr 80 %
enthält etwas weniger 75 %
ähnlicher Inhalt 70 %
Subsegment-Match 60 %
Term-Match 20 %
keine Relevanz 0 %


Tabelle [*] listet die festgelegten Klassen auf. Die Grenzen zwischen den vier Klassen von ,,fast gleicher Inhalt`` bis ,,ähnlicher Inhalt`` sind schwer zu ziehen und haben sich während der Klassifikationsarbeit vermutlich verschoben. Die Klassen bilden keine lineare Skala. Beispielsweise sind die Pole ,,enthält mehr/weniger`` unabhängig vom Grad der inhaltlichen Ähnlichkeit.

Um die Klassifikation leichter mit den Trigramm-Ähnlichkeitswerten vergleichen zu können, werden den Klassen die in der Tabelle angegebenen Relevanzwerte zugewiesen. Als Indikator für die Güte der Belegsituation wird der Mittelwert der Relevanzwerte der besten vier Fuzzy-Matches jedes Stichprobensatzes bestimmt.

Annotationstool

Für die Annotation der Klassen wurde eine webbasierte Anwendung implementiert, die ein sequentielles Wortalignment von Anfragesatz und Fuzzy-Match tabellarisch präsentiert und vom Benutzer die Klassifikation entgegennimmt. Zusätzlich werden mit dem Trigramm-Ähnlichkeitsmaß auffindbare Entsprechungen (einschließlich Überkreuzungen) farblich hervorgehoben. Der Annotator kann Übereinstimmungen an den Tabellenzeilen und Farbmustern schnell erkennen und kann sich so auf den Inhalt der Sätze konzentrieren.

Das Tool identifiziert automatisch Exact-Matches, Subsegment-Matches, Matches, die nur wenige Tippfehler enthalten, und Matches ohne Relevanz. Der Benutzer bestimmt aber grundsätzlich die Klasse eines Fuzzy-Matches im Dialog mit der Software. Das Tool unterbreitet nur Klassifikationsvorschläge.

Abbildung: Annotationstool
\includegraphics[scale=1.00]{korpus/fm_darstellung.eps}
Abbildung [*] zeigt die Anwendung mit einem Fuzzy-Match aus dem EU-Teilkorpus. Die linke Tabellenspalte enthält den Anfragesatz. Rechts sieht man den zu klassifizierenden Fuzzy-Match. In den Zeilen der Tabelle werden abwechselnd unterschiedliche und übereinstimmende Tokenfolgen gegenübergestellt. Verschiedene Hintergrundfarben, die im Schwarzweißdruck gleich erscheinen, kennzeichnen die Zeilen. Die Hervorhebung einzelner Wörter können dagegen auch im Druck teilweise erkannt werden. In der farbigen Darstellung springen Entsprechungen wie von ,,Konzentration`` und ,,konzentriert`` und von ,,Stillegung`` und ,,stillgelegt`` schnell ins Auge, da nur das Fehlen einer Farbe in einer Zeile entdeckt und die Stelle ihres Auftretens gefunden werden muss. Unten links wird in einer Auswahlliste die Klasse annotiert. Das Sternchen zeigt an, dass der Fuzzy-Match bereits annotiert wurde. Der Benutzer kann beliebig oft die Klassifikation ändern. Innerhalb der Fuzzy-Matches eines Stichprobensatzes kann mit dem Rollbalken (rechts außen) gewechselt werden. Für die einzelnen Sätze der Stichprobe gibt es eine Auswahlseite.

Ein Nachteile dieser Form der Annotation sollen nicht verschwiegen werden, nämlich die Reihenfolge, in der die Fuzzy-Matches zur Klassifikation vorgelegt werden. Innerhalb eines Anfragesatzes sind die Matches absteigend nach ihrer Ähnlichkeit zum Anfragesatz geordnet. Dies kann dazu verleiten, eine entsprechende Ordnung der Klassen anzunehmen. Besser wäre es, die Reihenfolge zu randomisieren. Mit diesem Problem einher geht die Anzeige der Ähnlichkeitswerte. Sie sollte während der Annotationsarbeit unterbleiben.



Fußnoten

... betrachtet.3.49
Es wurde in Erwägung gezogen, die Klasse ,,ähnliches Subsegment`` nachträglich einzuführen. Da schon viele Fuzzy-Matches klassifiziert waren, wurde dies aufgegeben.

next up previous contents index
Nächste Seite: Ergebnisse Aufwärts: Belegsituation Vorherige Seite: Ermittlung der Fuzzy-Matches   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie