4476 Fuzzy-Matches wurden zu den 510 Sätzen der Stichprobe gefunden.
Das sind 624 weniger als gewünscht.
Offensichtlich gibt es nicht für jeden Satz genügend Material im
Korpus, das mit den
Anfragetoken gefunden werden kann.
zeigt, wie viele Matches je Anfragesatz
gefunden wurden.
17 mal wurde gar kein Fuzzy-Match gefunden.
Im Englischen steht deutlich häufiger ausreichend Material zur Verfügung
als im Deutschen.
Ob dies an der Art der Ermittlung der Kandidatenmenge liegt oder die
tatsächliche Belegsituation wiederspiegelt, kann an dieser Stelle nicht
beantwortet werden.
Um zu beurteilen, wie gut das Ähnlichkeitsmaß die Relevanz der Fuzzy-Matches vorhersagt, werden nun die Klassenhäufigkeiten in Abhängigkeit von den Ähnlichkeitswerten betrachtet. Eine Korrelationsanalyse wird hier nicht durchgeführt, da der Einarbeitungsaufwand hoch ist und dem Autor Erfahrungen fehlen, wie die Resultate zu interpretieren sind. Stattdessen werden die Ähnlichkeitswerte in Intervalle unterteilt und für jedes Intervall die absoluten Häufigkeiten der Klassen der Fuzzy-Matches mit Ähnlichkeitswerten aus dem Intervall ermittelt. Da die Verteilung der Ähnlichkeitswerte sprachabhängig ist, wird die Abhängigkeit für Deutsch und Englisch getrennt untersucht.
Der Idealfall wäre, dass solche Intervalle gefunden werden können, dass Intervalle und Klassen bijektiv und ordnungserhaltend einander zugeordnet sind. Das Ähnlichkeitsmaß würde dann auf den klassifizierten Fuzzy-Matches keine Vorhersagefehler machen, und man könnte eine sehr gute Vorhersagequalität bei neuen Fuzzy-Matches erwarten. (Oder es würde der Verdacht aufkommen, der Annotator habe die Sätze nicht gelesen und nur den Ähnlichkeitswerten Beachtung geschenkt.) Zu erwarten ist jedoch, dass in jedem Intervall mehrere Klassen vertreten sind, außer wenn man sie so schmal wählt, dass nur noch sehr wenige Fuzzy-Matches vertreten sind.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die Tabellen
und
listen die Klassenhäufigkeiten für einige Intervalle auf.
Die Klassen sind stellvertretend mit den in Tabelle
eindeutig zugeordneten Relevanzwerten angegeben,
um Platz zu sparen.
Die Intervalle wurden mit Hilfe der Rangliste aller
Ähnlichkeitswerte
der 2035 deutschen bzw. 2441 englischen Fuzzy-Matches so
festgelegt, dass je Intervall möglichst gleich viele Fuzzy-Matches
auftreten.3.50
Es wurden zwei verschiedene Unterteilungen vorgenommen.
Die erste, nur fünf Intervalle umfassende Unterteilung zeigt, dass
bei Ähnlichkeitswerten
nur sehr selten bessere Fuzzy-Matches
als Term-Matches auftreten. Unter 0,20 treten nur noch Term-Matches und
irrelevante Matches auf, wobei Letztere die Mehrheit bilden.
Im ersten Intervall dieser Unterteilung treten alle Klassen auf.
Deshalb wurde noch eine weitere, feinere Unterteilung in 100 Intervalle
vorgenommen.
Die ersten zehn Intervalle, die der ersten Hälfte des ersten Intervalls
der ersten Unterteilung entsprechen, sind in dem jeweils zweiten Teil
der Tabellen abgebildet.
Hier zeigt sich, dass sich die Häufigkeitsverteilung der Klassen mit
steigendem Ähnlichkeitswert verbreitert und zu den Klassen
höherer Relevanz verschiebt.
Bei Werten über 0,61 treten nur noch Matches mit mindestens ähnlichem
Inhalt auf.
Wichtig für die Entscheidung, den Schwerpunkt der Klassifikationsarbeit auf die Sätze der Stichprobe zu legen, für die die besten vier Fuzzy-Matches einen hohen Ähnlichkeitswertdurchschnitt aufweisen, ist auch, dass bei Ähnlichkeitswerten unter 0,4 nur noch sehr selten bessere Matches als Subsegment-Matches gefunden werden und dass unter 0,3 auch diese in der Regel ausbleiben.
Klassifiziert wurden 567 Paare von Anfragesätzen und
Fuzzy-Matches.3.51Das sind 12,7 % aller Fuzzy-Matches.
Vorzugsweise wurden solche mit hoher Ähnlichkeit laut dem
Ähnlichkeitsmaß klassifiziert.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
zeigt die Häufigkeiten der Klassen
für die beiden Sprachen und insgesamt.3.52103 Fuzzy-Matches haben über 60 % Relevanz, also ähnlichen oder
sogar fast gleichen Inhalt wie der Anfragesatz.
Subsegment-Matches sind mehr als dreieinhalb mal seltener als
relevantere Matches,
Term-Matches wesentlich häufiger.
Unterschiede zwischen den Sprachen können festgestellt werden:
Im Englischen wurden keine Matches mit gleichem Inhalt, dafür
jedoch entsprechend mehr mit fast gleichem Inhalt gefunden.
Subsegment-Matches werden mehr als vier mal so häufig im Englischen
als im Deutschen gefunden.
Es wurden zu 62 Sätzen der Stichprobe (31 je Sprache)
Klassifikationen vorgenommen.
Zu 17 weitere Anfragesätze gibt es keine Daten, da für
sie gar keine Fuzzy-Matches im Korpus gefunden wurden.
Betroffen sind 15 deutsche und 2 englische Sätze.
Die Beleglage für die Anfragesätze lässt sich mit der Tabelle
schlecht einschätzen, da aus ihr nicht
hervorgeht, ob sich die Fuzzy-Matches mit hoher Relevanz auf
einige wenige Anfragesätze zurückgehen oder über viele verteilt
sind.
Dies ändert sich, wenn man für jede Klasse auszählt, wie
häufig sie den besten Fuzzy-Match eines Anfragesatzes
stellt.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
können die Häufigkeiten
entnommen werden.
Selbst wenn man annimmt, die nicht klassifizierten Matches hätten
keine Relevanz, haben 36 von 510 Sätze der Stichprobe mindestens
einen Fuzzy-Match mit Relevanz über 60 %.
Das sind immerhin 7 %,
im Deutschen etwas weniger (6,4 %) und im Englischen etwas mehr
(7,7 %).
Zur Beurteilung der Belegsituation können auch die Tabellen im
Anhang
beitragen, die zu jedem Satz der Stichprobe
die Güte der Fuzzy-Matches angeben, die als Durchschnitt der Relevanzwerte
der jeweils besten vier Matches definiert wurde.
und
.