next up previous contents index
Nächste Seite: Bewertung Aufwärts: Belegsituation Vorherige Seite: Klassifikation der Fuzzy-Matches   Inhalt   Index

Unterabschnitte

Ergebnisse

4476 Fuzzy-Matches wurden zu den 510 Sätzen der Stichprobe gefunden. Das sind 624 weniger als gewünscht. Offensichtlich gibt es nicht für jeden Satz genügend Material im Korpus, das mit den $ k=3$ Anfragetoken gefunden werden kann.

Tabelle: Häufigkeiten der Anzahlen der Fuzzy-Matches
gefundene Matches Häufigkeit Deutsch Englisch
0 17 15 2
1 16 14 2
2 10 6 4
3 11 5 6
4 4 2 2
5 10 7 3
6 12 10 2
7 6 4 2
8 4 2 2
9 5 3 2
10 415 182 233
Summe 510 250 260


Tabelle [*] zeigt, wie viele Matches je Anfragesatz gefunden wurden. 17 mal wurde gar kein Fuzzy-Match gefunden. Im Englischen steht deutlich häufiger ausreichend Material zur Verfügung als im Deutschen. Ob dies an der Art der Ermittlung der Kandidatenmenge liegt oder die tatsächliche Belegsituation wiederspiegelt, kann an dieser Stelle nicht beantwortet werden.

Eignung des Ähnlichkeitsmaßes

Um zu beurteilen, wie gut das Ähnlichkeitsmaß die Relevanz der Fuzzy-Matches vorhersagt, werden nun die Klassenhäufigkeiten in Abhängigkeit von den Ähnlichkeitswerten betrachtet. Eine Korrelationsanalyse wird hier nicht durchgeführt, da der Einarbeitungsaufwand hoch ist und dem Autor Erfahrungen fehlen, wie die Resultate zu interpretieren sind. Stattdessen werden die Ähnlichkeitswerte in Intervalle unterteilt und für jedes Intervall die absoluten Häufigkeiten der Klassen der Fuzzy-Matches mit Ähnlichkeitswerten aus dem Intervall ermittelt. Da die Verteilung der Ähnlichkeitswerte sprachabhängig ist, wird die Abhängigkeit für Deutsch und Englisch getrennt untersucht.

Der Idealfall wäre, dass solche Intervalle gefunden werden können, dass Intervalle und Klassen bijektiv und ordnungserhaltend einander zugeordnet sind. Das Ähnlichkeitsmaß würde dann auf den klassifizierten Fuzzy-Matches keine Vorhersagefehler machen, und man könnte eine sehr gute Vorhersagequalität bei neuen Fuzzy-Matches erwarten. (Oder es würde der Verdacht aufkommen, der Annotator habe die Sätze nicht gelesen und nur den Ähnlichkeitswerten Beachtung geschenkt.) Zu erwarten ist jedoch, dass in jedem Intervall mehrere Klassen vertreten sind, außer wenn man sie so schmal wählt, dass nur noch sehr wenige Fuzzy-Matches vertreten sind.


Tabelle: Klassenverteilung in Ähnlichkeitsintervallen (Deutsch)
5 Unterteilungen
$ a \backslash $ Klasse* 0 20 60 70 75 80 85 90 95 100
$ ]0.2700,1.0000]$ 37 45 5 25 1 5 8 5 2 4
$ ]0.2377,0.2700]$ 17 9 0 1 0 0 0 0 0 0
$ ]0.2079,0.2377]$ 38 7 0 0 0 0 0 0 0 0
$ ]0.1675,0.2079]$ 22 6 0 0 0 0 0 0 0 0
$ ]0.0000,0.1675]$ 33 4 0 0 0 0 0 0 0 0

die ersten 10 von 100 Unterteilungen
$ a \backslash $ Klasse* 0 20 60 70 75 80 85 90 95 100
$ ]0.6087,1.0000]$ 0 0 0 2 0 3 4 4 2 4
$ ]0.5147,0.6087]$ 0 0 2 11 0 1 3 1 0 0
$ ]0.4135,0.5147]$ 1 3 1 6 1 0 1 0 0 0
$ ]0.3801,0.4135]$ 1 5 0 4 0 0 0 0 0 0
$ ]0.3546,0.3801]$ 1 5 1 1 0 1 0 0 0 0
$ ]0.3401,0.3546]$ 0 7 0 0 0 0 0 0 0 0
$ ]0.3293,0.3401]$ 7 3 1 1 0 0 0 0 0 0
$ ]0.3207,0.3293]$ 2 4 0 0 0 0 0 0 0 0
$ ]0.3098,0.3207]$ 3 1 0 0 0 0 0 0 0 0
$ ]0.3000,0.3098]$ 3 3 0 0 0 0 0 0 0 0
* angegeben durch die Relevanz in %



Tabelle: Klassenverteilung in Ähnlichkeitsintervallen (Englisch)
5 Unterteilungen
$ a \backslash $ Klasse* 0 20 60 70 75 80 85 90 95 100
$ ]0.2593,1.0000]$ 27 62 23 27 0 6 12 0 0 4
$ ]0.2227,0.2593]$ 21 10 0 1 0 0 0 0 0 0
$ ]0.1988,0.2227]$ 26 7 0 2 0 0 0 0 0 0
$ ]0.1675,0.1988]$ 30 11 0 0 0 0 0 0 0 0
$ ]0.0000,0.1675]$ 19 5 0 0 0 0 0 0 0 0

die ersten 10 von 100 Unterteilungen
$ a \backslash $ Klasse* 0 20 60 70 75 80 85 90 95 100
$ ]0.6112,1.0000]$ 0 0 0 4 0 1 12 0 0 4
$ ]0.4363,0.6112]$ 0 6 3 6 0 1 0 0 0 0
$ ]0.3971,0.4363]$ 0 9 5 4 0 1 0 0 0 0
$ ]0.3693,0.3971]$ 1 6 2 4 0 1 0 0 0 0
$ ]0.3395,0.3693]$ 2 8 1 3 0 0 0 0 0 0
$ ]0.3234,0.3395]$ 1 4 0 1 0 1 0 0 0 0
$ ]0.3108,0.3234]$ 2 0 1 0 0 1 0 0 0 0
$ ]0.3031,0.3108]$ 2 3 3 1 0 0 0 0 0 0
$ ]0.2948,0.3031]$ 2 3 1 1 0 0 0 0 0 0
$ ]0.2906,0.2948]$ 2 1 1 0 0 0 0 0 0 0
* angegeben durch die Relevanz in %


Die Tabellen [*] und [*] listen die Klassenhäufigkeiten für einige Intervalle auf. Die Klassen sind stellvertretend mit den in Tabelle [*] eindeutig zugeordneten Relevanzwerten angegeben, um Platz zu sparen. Die Intervalle wurden mit Hilfe der Rangliste aller Ähnlichkeitswerte der 2035 deutschen bzw. 2441 englischen Fuzzy-Matches so festgelegt, dass je Intervall möglichst gleich viele Fuzzy-Matches auftreten.3.50

Es wurden zwei verschiedene Unterteilungen vorgenommen. Die erste, nur fünf Intervalle umfassende Unterteilung zeigt, dass bei Ähnlichkeitswerten $ a < 0,25$ nur sehr selten bessere Fuzzy-Matches als Term-Matches auftreten. Unter 0,20 treten nur noch Term-Matches und irrelevante Matches auf, wobei Letztere die Mehrheit bilden. Im ersten Intervall dieser Unterteilung treten alle Klassen auf. Deshalb wurde noch eine weitere, feinere Unterteilung in 100 Intervalle vorgenommen. Die ersten zehn Intervalle, die der ersten Hälfte des ersten Intervalls der ersten Unterteilung entsprechen, sind in dem jeweils zweiten Teil der Tabellen abgebildet. Hier zeigt sich, dass sich die Häufigkeitsverteilung der Klassen mit steigendem Ähnlichkeitswert verbreitert und zu den Klassen höherer Relevanz verschiebt. Bei Werten über 0,61 treten nur noch Matches mit mindestens ähnlichem Inhalt auf.

Wichtig für die Entscheidung, den Schwerpunkt der Klassifikationsarbeit auf die Sätze der Stichprobe zu legen, für die die besten vier Fuzzy-Matches einen hohen Ähnlichkeitswertdurchschnitt aufweisen, ist auch, dass bei Ähnlichkeitswerten unter 0,4 nur noch sehr selten bessere Matches als Subsegment-Matches gefunden werden und dass unter 0,3 auch diese in der Regel ausbleiben.

Relevanz der Fuzzy-Matches

Klassifiziert wurden 567 Paare von Anfragesätzen und Fuzzy-Matches.3.51Das sind 12,7 % aller Fuzzy-Matches. Vorzugsweise wurden solche mit hoher Ähnlichkeit laut dem Ähnlichkeitsmaß klassifiziert.

Tabelle: Häufigkeiten der Klassen
Klasse Relevanz Häufigkeit Deutsch Englisch
Exact-Match 100 % 8 4 4
nur Tippfehler 95 % 2 2 0
gleicher Inhalt 90 % 5 5 0
fast gleicher Inhalt 85 % 20 8 12
enthält etwas mehr 80 % 11 5 6
enthält etwas weniger 75 % 1 1 0
ähnlicher Inhalt 70 % 56 26 30
Subsegment-Match 60 % 28 5 23
Term-Match 20 % 166 71 95
keine Relevanz 0 % 270 147 123
Summe 567 274 293


Tabelle [*] zeigt die Häufigkeiten der Klassen für die beiden Sprachen und insgesamt.3.52103 Fuzzy-Matches haben über 60 % Relevanz, also ähnlichen oder sogar fast gleichen Inhalt wie der Anfragesatz. Subsegment-Matches sind mehr als dreieinhalb mal seltener als relevantere Matches, Term-Matches wesentlich häufiger. Unterschiede zwischen den Sprachen können festgestellt werden: Im Englischen wurden keine Matches mit gleichem Inhalt, dafür jedoch entsprechend mehr mit fast gleichem Inhalt gefunden. Subsegment-Matches werden mehr als vier mal so häufig im Englischen als im Deutschen gefunden.

Sätze mit guter Beleglage

Es wurden zu 62 Sätzen der Stichprobe (31 je Sprache) Klassifikationen vorgenommen. Zu 17 weitere Anfragesätze gibt es keine Daten, da für sie gar keine Fuzzy-Matches im Korpus gefunden wurden. Betroffen sind 15 deutsche und 2 englische Sätze. Die Beleglage für die Anfragesätze lässt sich mit der Tabelle [*] schlecht einschätzen, da aus ihr nicht hervorgeht, ob sich die Fuzzy-Matches mit hoher Relevanz auf einige wenige Anfragesätze zurückgehen oder über viele verteilt sind. Dies ändert sich, wenn man für jede Klasse auszählt, wie häufig sie den besten Fuzzy-Match eines Anfragesatzes stellt.

Tabelle: Klassenhäufigkeiten bei den besten Fuzzy-Matches
Klasse Relevanz Häufigkeit Deutsch Englisch
Exact-Match 100 % 7 3 4
nur Tippfehler 95 % 0 0 0
gleicher Inhalt 90 % 3 3 0
fast gleicher Inhalt 85 % 7 4 3
enthält etwas mehr 80 % 4 1 3
enthält etwas weniger 75 % 0 0 0
ähnlicher Inhalt 70 % 15 5 10
Subsegment-Match 60 % 5 2 3
Term-Match 20 % 12 9 3
keine Relevanz 0 % 9 4 5
Summe 62 31 31


Der Tabelle [*] können die Häufigkeiten entnommen werden. Selbst wenn man annimmt, die nicht klassifizierten Matches hätten keine Relevanz, haben 36 von 510 Sätze der Stichprobe mindestens einen Fuzzy-Match mit Relevanz über 60 %. Das sind immerhin 7 %, im Deutschen etwas weniger (6,4 %) und im Englischen etwas mehr (7,7 %).

Zur Beurteilung der Belegsituation können auch die Tabellen im Anhang [*] beitragen, die zu jedem Satz der Stichprobe die Güte der Fuzzy-Matches angeben, die als Durchschnitt der Relevanzwerte der jeweils besten vier Matches definiert wurde.



Fußnoten

... auftreten.3.50
Die Zeilensummen in den Tabellen schwanken stark, da nur klassifizierte Fuzzy-Matches gezählt wurden und die Intervalleinteilung jedoch auf der Verteilung aller Matches beruht. Dies mag man bedauern, ist aber notwendig, um unabhängige und abhängige Größen in der Darstellung klar voneinander zu trennen.
... Fuzzy-Matches.3.51
Es sind nur 566 unterschiedliche Sätze. Einer ist Fuzzy-Match zu zwei verschiedenen Anfragesätzen.
... insgesamt.3.52
Für die einzelnen Sprachen sind die Werte die Spaltensummen der Tabellen [*] und [*].

next up previous contents index
Nächste Seite: Bewertung Aufwärts: Belegsituation Vorherige Seite: Klassifikation der Fuzzy-Matches   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie