Im Abschnitt
wurde festgestellt, dass Subsegment-Matches
wesentlich seltener als Matches mit ähnlichem Inhalt auftreten.
Man könnte daher fragen, ob der Aufwand für die Generierung eines
Übersetzungsvorschlags aus Subsegment-Matches gerechtfertigt ist.
Zwei Punkte sprechen dafüt:
Zum einen muss man bedenken, dass die Unterscheidung zwischen
Subsegment-Matches
und Matches mit ähnlichem Inhalt manuell getroffen wurde.
In der Praxis steht nur das Ähnlichkeitsmaß zur Verfügung.
Es hat sich aber gezeigt, dass das Maß die Klassen nicht eindeutig
bestimmen kann.
In einem breiten Intervall von Ähnlichkeitswerten treten im Englischen
sowohl Subsegment-Matches als auch Matches mit ähnlichem Inhat auf.
Im Deutschen gibt es Überschneidungen mit beiden Nachbarklassen
,,Term-Match`` und ,,Match mit ähnlichem Inhalt``.
Die Ähnlichkeitsschwelle, ab der wie in einem klassischen Translation Memory
ein Übersetzungsvorschlag aus einer Fundstelle übernommen wird, sollte also
so hoch gewählt werden, dass keine (oder nur wenige) Subsegment-Matches
als Match mit ähnlichem Inhalt dem Übersetzer präsentiert wird.
Ebenso ist denkbar, Übersetzungen aus Fuzzy-Matches und
generierte Übersetzungen dem Benutzer zugleich anzubieten.
Als zweites kann die Mindestlänge der Subsegmente herabgesetzt werden. Bei der Klassifikation wurden acht Token verlangt. Kürzere Subsegmente, wie z.B. ,,die Voraussetzungen von Artikel 66`` (Segment 612370-de)4.1, ,,der zweiten Stufe des Vertragsverletzungsverfahrens`` (Segment 457666-de) und ,,sent a reasoned opinion to`` (Segment 457677-en), können zugelassen werden. Die große Zahl von bei der Klassifikation gefundenen Term-Matches deutet an, dass mit kleineren Subsegmentlängen die Zahl der Matches vervielfacht werden kann.
Im Folgenden werden auch Fuzzy-Matches mit ähnlichem bis fast gleichem Inhalt verwendet. Auf eine feste Längenbeschränkung der Subsegmente wird verzichtet.
Die tabellarische Darstellung eines sequentiellen Wortalignments
im Annotationstool erlaubt es, übereinstimmende Subsegmente schnell
zu erkennen.
Allerdings verlangt das Tool eine genaue zeichenweise Übereinstimmung.
Beispielsweise führt beim Match
612370-de-632624 (Seite
)
ein Fehler bei der Eszett-Korrektur zur Aufteilung des Subsegments
,,dieser Übernahme die Voraussetzungen des Artikel 66``.
Die Abweichung führt dazu, dass das betroffene Wort alleine in
einer Zeile steht.
Solche Subsegmente können daher auch leicht erkannt werden.
Im Folgenden werden sie besonders gekennzeichent, wenn sie
verwendet werden.
Zu zwei Segment zeigt Tabelle
Subsegmente, die
nicht Teil eines größeren Subsegments sind, d.h. maximal sind.
Die Anfragesätze sind:
In der Tabelle wurden auch mehrere Subsegmente mit ähnlichem Inhalt aufgeführt. In einem Fall wie 457666-de-435175 könnte das Trigramm-Ähnlichkeitsmaß benutzt werden, um die Ähnlichkeit festzustellen. Für kurze Subsegmente ist dies nicht möglich, da kleine Änderungen bereits zu einem großen Anteil von Trigrammen führen, die nicht in beiden Subsegmenten gleich häufig vorkommen. Auch in dem Beispiel, in dem ,,Zustimmung`` durch ,,Genehmigung`` ausgetauscht ist, ist das Maß ungeeignet, da sich sehr viele Trigramm-Häufigkeiten durch die Substitution ändern.
Um die Ähnlichkeitsschwelle weiter absenken zu können ohne viele irrelevante Subsegmente zu finden, sind weitere Kriterien erforderlich, die ein Subsegment erfüllen muss. Beispielsweise könnte man verlangen, dass das Subsegment die gleiche POS-Tagfolge aufweisen muss, wie das entsprechende Subsegment im Anfragesatz. Im Fall 612370-de-625456 würde dies die Änderung von ,,Zustimmung`` zu ,,Genehmigung`` erlauben, den Einschub ,,hat deshalb`` in 612370-de-613006 dagegen verbieten. Entwickelt man diese Kriterien weiter, stellt man schließlich fest, dass ein monolingualer Subsegment-Aligner vorliegt.
Wenn die erste Fuzzy-Match-Anfrage mit dem Ausgangssatz nicht genug Material aus dem Korpus extrahiert hat, könnte man neue Anfragen mit den bereits identifizierten Subsegmenten und mit den noch nicht abgedeckten Textfragmenten starten.
.
Fuzzy-Matches werden im Folgenden als Tupel von Anfragesegment,
Sprache und Referenzsegment angegeben.