next up previous contents index
Nächste Seite: Identifikation der Übersetzung eines Aufwärts: Ein Ansatz zur Nutzung Vorherige Seite: Ein Ansatz zur Nutzung   Inhalt   Index

Unterabschnitte

Subsegment-Suche

Im Abschnitt [*] wurde festgestellt, dass Subsegment-Matches wesentlich seltener als Matches mit ähnlichem Inhalt auftreten. Man könnte daher fragen, ob der Aufwand für die Generierung eines Übersetzungsvorschlags aus Subsegment-Matches gerechtfertigt ist. Zwei Punkte sprechen dafüt: Zum einen muss man bedenken, dass die Unterscheidung zwischen Subsegment-Matches und Matches mit ähnlichem Inhalt manuell getroffen wurde. In der Praxis steht nur das Ähnlichkeitsmaß zur Verfügung. Es hat sich aber gezeigt, dass das Maß die Klassen nicht eindeutig bestimmen kann. In einem breiten Intervall von Ähnlichkeitswerten treten im Englischen sowohl Subsegment-Matches als auch Matches mit ähnlichem Inhat auf. Im Deutschen gibt es Überschneidungen mit beiden Nachbarklassen ,,Term-Match`` und ,,Match mit ähnlichem Inhalt``. Die Ähnlichkeitsschwelle, ab der wie in einem klassischen Translation Memory ein Übersetzungsvorschlag aus einer Fundstelle übernommen wird, sollte also so hoch gewählt werden, dass keine (oder nur wenige) Subsegment-Matches als Match mit ähnlichem Inhalt dem Übersetzer präsentiert wird. Ebenso ist denkbar, Übersetzungen aus Fuzzy-Matches und generierte Übersetzungen dem Benutzer zugleich anzubieten.

Als zweites kann die Mindestlänge der Subsegmente herabgesetzt werden. Bei der Klassifikation wurden acht Token verlangt. Kürzere Subsegmente, wie z.B. ,,die Voraussetzungen von Artikel 66`` (Segment 612370-de)4.1, ,,der zweiten Stufe des Vertragsverletzungsverfahrens`` (Segment 457666-de) und ,,sent a reasoned opinion to`` (Segment 457677-en), können zugelassen werden. Die große Zahl von bei der Klassifikation gefundenen Term-Matches deutet an, dass mit kleineren Subsegmentlängen die Zahl der Matches vervielfacht werden kann.

Im Folgenden werden auch Fuzzy-Matches mit ähnlichem bis fast gleichem Inhalt verwendet. Auf eine feste Längenbeschränkung der Subsegmente wird verzichtet.

Hilfsmittel

Die tabellarische Darstellung eines sequentiellen Wortalignments im Annotationstool erlaubt es, übereinstimmende Subsegmente schnell zu erkennen. Allerdings verlangt das Tool eine genaue zeichenweise Übereinstimmung. Beispielsweise führt beim Match 612370-de-632624 (Seite [*]) ein Fehler bei der Eszett-Korrektur zur Aufteilung des Subsegments ,,dieser Übernahme die Voraussetzungen des Artikel 66``. Die Abweichung führt dazu, dass das betroffene Wort alleine in einer Zeile steht. Solche Subsegmente können daher auch leicht erkannt werden. Im Folgenden werden sie besonders gekennzeichent, wenn sie verwendet werden.

Beispiele für Subsegmente


Tabelle: Beispiele für Subsegmente (Deutsch)
Anfrage Match Subsegment
612370-de 619902
die Voraußetzungen von Artikel 66 Absatz 2 EGKS-Vertrag erfüllt sind
612370-de 613006
ihre Zustimmung erteilt
612370-de 625456
, hat die Kommission ihre
457666-de 464651
mit Gründen versehenen Stellungnahme #, der zweiten Stufe des Vertragsverletzungsverfahrens
457666-de 470928
Artikel 226 EG-Vertrag


ähnliche Subsegmente
612370-de 613006
die Kommission hat deshalb ihre Zustimmung erteilt
612370-de 625456
, hat die Kommission ihre Genehmigung erteilt
457666-de 435175
Die Aufforderung an Belgien ergeht


Zu zwei Segment zeigt Tabelle [*] Subsegmente, die nicht Teil eines größeren Subsegments sind, d.h. maximal sind. Die Anfragesätze sind:
\begin{examples}
\item Da mit dieser übernahme die Voraußetzungen von Artikel 6...
...
Vertragsverletzungsverfahrens gemäß Artikel 226 EG-Vertrag .
\end{examples}

In der Tabelle wurden auch mehrere Subsegmente mit ähnlichem Inhalt aufgeführt. In einem Fall wie 457666-de-435175 könnte das Trigramm-Ähnlichkeitsmaß benutzt werden, um die Ähnlichkeit festzustellen. Für kurze Subsegmente ist dies nicht möglich, da kleine Änderungen bereits zu einem großen Anteil von Trigrammen führen, die nicht in beiden Subsegmenten gleich häufig vorkommen. Auch in dem Beispiel, in dem ,,Zustimmung`` durch ,,Genehmigung`` ausgetauscht ist, ist das Maß ungeeignet, da sich sehr viele Trigramm-Häufigkeiten durch die Substitution ändern.

Um die Ähnlichkeitsschwelle weiter absenken zu können ohne viele irrelevante Subsegmente zu finden, sind weitere Kriterien erforderlich, die ein Subsegment erfüllen muss. Beispielsweise könnte man verlangen, dass das Subsegment die gleiche POS-Tagfolge aufweisen muss, wie das entsprechende Subsegment im Anfragesatz. Im Fall 612370-de-625456 würde dies die Änderung von ,,Zustimmung`` zu ,,Genehmigung`` erlauben, den Einschub ,,hat deshalb`` in 612370-de-613006 dagegen verbieten. Entwickelt man diese Kriterien weiter, stellt man schließlich fest, dass ein monolingualer Subsegment-Aligner vorliegt.

Wenn die erste Fuzzy-Match-Anfrage mit dem Ausgangssatz nicht genug Material aus dem Korpus extrahiert hat, könnte man neue Anfragen mit den bereits identifizierten Subsegmenten und mit den noch nicht abgedeckten Textfragmenten starten.



Fußnoten

... 612370-de)4.1
Siehe Anhang [*]. Fuzzy-Matches werden im Folgenden als Tupel von Anfragesegment, Sprache und Referenzsegment angegeben.

next up previous contents index
Nächste Seite: Identifikation der Übersetzung eines Aufwärts: Ein Ansatz zur Nutzung Vorherige Seite: Ein Ansatz zur Nutzung   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie