next up previous contents index
Nächste Seite: Alignment Aufwärts: Segmentierung eines Bitexts in Vorherige Seite: Granularität   Inhalt   Index

$ n:m$ Übersetzung von Sätzen

Der Leser, der eine Fremdsprache gelernt hat, wird sicherlich nachvollziehen können, dass auf der Ebene der Wörter und Phrasen keine sequentielle $ 1:1$ Zuordnung möglich ist, d.h. dass die Reihenfolge dort nicht immer beibehalten, ein Wort durch mehrere wiedergegeben oder auch Teile kompakter übersetzt werden können. Aber bei Sätzen und Absätzen liegt dies nicht gleich auf der Hand. In diesem Unterabschnitt werden daher Zahlen aus dem Korpus vorgestellt, das in dieser Arbeit verwendet und in Abschnitt [*] ausführlich vorgestellt wird.

Wenn man die Anzahl der Sätze im Ausgangstext mit der der Übersetzung vergleicht, dann ergibt sich eine untere Schranke für die Anzahl der Sätze, die nicht $ 1:1$ einem anderen Satz zugeordnet werden können. Man könnte vermuten, dass beim Übersetzen bestimmte Alignment-Beads (neben den dominierenden $ 1:1$ Zuordnungen) unabhängig vom Übersetzer oder von der Übersetzungsrichtung bevorzugt werden. Tabelle [*] zeigt ein etwas unklareres Bild. Der Rückgang der Anzahl der Sätze um über sieben Prozent bei den DE-News Texten kann darauf zurückzuführen sein, dass Freiwillige die Übersetzungen anfertigen, die zum größten Teil vermutlich nicht dazu ausgebildet sind. Des Weiteren werden einzelne Nachrichten gar nicht übersetzt, wenn die Redaktion der Ansicht ist, dass sie für die Leser uninteressant sind. Auch wurde beobachtet, dass zum Ende einer Nachricht weitere Ausführungen des Ausgangstextes ausgelassen wurden.


Tabelle: Anzahl der Sätze in den verwendeten Korpora
Korpus Deutsch Englisch Verhältnis Ausgangssprache
DE-News 64432 59732 1,08 Deutsch
EU 112828 110326 1,02 unbekannt
Harry Potter 35902 36951 0,97 Englisch
Gesamt 213162 207009 1,03 --


Bei den Harry Potter Büchern dürften andere Gründe vorliegen. Sie wurden von Bewunderern der Bücher eingescannt und am Computer in Text umgewandelt. In einer kleinen Stichprobe fällt auf, dass einige offensichtliche Kommata von der OCR als Punkte interpretiert wurden. Des Weiteren hat der Übersetzer an Stelle eines Semikolons gelegentlich einen Punkt gesetzt.2.5Das Korpus EU2.6verhält sich dagegen wie erwartet, wenn man annimmt, dass die Texte mehrheitlich von Englisch nach Deutsch übersetzt wurden. Die Zunahme der Anzahl der Sätze durch das Übersetzen um etwa zwei bis drei Prozent kann durch die Neigung von Übersetzern, Sätze aufzuteilen, erklärt werden.

Um ein genaueres Bild zu erhalten, muss man untersuchen, welche Zuordnungen tatsächlich auftreten. Einen guten Anhaltspunkt gibt das maschinell erstellte Alignment. Die Häufigkeiten der verschiedenen Zuordnungen sagen mehr aus als die Satzanzahlen. Wenn z.B. neben $ 1:1$ Zuordnungen nur vereinzelt $ m:0$ Zuordnungen mit großem $ m$ aufträten, dann würde dies bedeuten, dass lediglich einige Textpassagen weggelassen wurden. Hingegen würden viele $ 1:2$ Zuordnungen die Annahme stützen, dass Übersetzer zum Aufteilen von Sätzen neigen.

Tabelle [*] zeigt die Häufigkeiten der wichtigsten Zuordnungsarten aufgeschlüsselt nach den verwendeten Korpora. Unabhängig von der Übersetzungsrichtung bedeutet hier eine $ n:m$ Zuordnung, dass $ n$ Sätze des Deutschen zusammen mit $ m$ Sätzen des Englischen eine Translation Unit bilden. Die Richtung der Übersetzung kann der Tabelle [*] entnommen werden. Im EU Korpus können auch Dokumente enthalten sein, die aus einer dritten Sprache übersetzt wurden. Wie groß deren Anteil am Korpus ist, kann der KoKS Dokumentation nicht entnommen werden.


Tabelle: Satzzuordnungen in den verwendeten Korpora
Korpus $ 0:1$ / $ 1:0$ $ 1:1$ $ 2:1$ $ 1:2$ andere
DE-News 1 51027 3951 1151 1469
EU 1 88511 5896 4417 3003
Harry Potter 0 29008 1477 1898 994
Gesamt 2 168546 11324 7466 5466


Die Zahlen machen deutlich, dass wesentlich mehr von $ 1:1$ Zuordnungen abweichende Zuordnungen auftreten, als notwendig wären, um die Differenz in den Satzanzahlen zu überbrücken. Beispielweise hätten beim EU Korpus 2502 $ 2:1$ Zuordnungen und 107824 $ 1:1$ Zuordnungen ausgereicht, um ein Alignment zwischen den Texten herzustellen. (Dabei würden durch Dokument- und Absatzgrenzen implizierte Ankerpunkte des Alignment höchstwahrscheinlich verletzt.) Tatsächlich treten mehr als fünf mal so viele, nämlich 13317, nicht $ 1:1$ Zuordnungen auf, darunter viele $ 1:2$ Zuordnungen.


Tabelle: Anteil der Satzzuordnungen
Korpus $ 0:1$ / $ 1:0$ $ 1:1$ $ 2:1$ $ 1:2$ andere
DE-News 0,0 % 88,6 % 6,9 % 2,0 % 2,6 %
EU 0,0 % 86,9 % 5,8 % 4,3 % 2,9 %
Harry Potter 0,0 % 86,9 % 4,4 % 5,7 % 3,0 %
Gesamt 0,0 % 87,4 % 5,9 % 3,9 % 2,8 %


Vergleicht man den Anteil der $ 1:1$ Zuordnungen, der in Tabelle [*] prozentual angegeben ist, mit den Werten aus einer Untersuchung von () und den Zahlen zum ARCADE-Korpus (() Seite 374-375), fällt auf, dass die Werte im KoKS-Korpus kaum variieren. findet deulich mehr $ 1:1$ Zuordnungen. Nur einer von zwei Romanen kommt beim ihm mit 91 % in die Nähe des Wertes für die Harry-Potter-Bücher. Im ARCADE-Korpus weist das literarische Teilkorpus dagegen nur zu 76 % $ 1:1$ Zuordnungen auf. Das Verhältnis von $ 2:1$ und $ 1:2$ Zuordnungen im KoKS-Korpus scheint ungewöhnlich zu sein. Gerade bei Romanen findet nur sehr wenige $ 2:1$ Zuordnungen.

Bei der Interpretation der Zahlen muss man beachten, dass unterschiedliche Aligner verwendet wurden. Der KoKS-Aligner erzeugt nur $ 0:n$ oder $ n:0$ Zuordnungen, wenn in einer Sprachseite ein leerer Absatz vorliegt. Der von () eingesetzte Aligner aus der Werkzeugsammlung ,,DAVE`` kann solche Zuordnungen in großer Zahl hervorbringen, wenn ein Text frei übersetzt ist. Zumindest folgert er im ersten Absatz vom Abschnitt 3.2 umgekehrt, dass ein Teilkorpus frei übersetzt sein müsse, da sein Aligner Löschungen und Einfügungen erkannt hat:

The OS2 text has a strikingly high proportion of deletions (1-0) and insertions (0-1) which indicate that the translation is not particularly close to the original, but is rather a kind of communicative, more target-oriented translation.



Fußnoten

... gesetzt.2.5
() beobachtet ähnliche Unterschiede in der Verwendung dieser Satzzeichen in einer schwedischen Übersetzung eines englischen Romans. Nach Anpassung der Satzgrenzenerkennung erhöht sich der Anteil der $ 1:1$ Zuordnungen auf das Niveau der anderen von alignten Texte. (Seite 3-4).
... EU2.6
Die verwendeten Kurzbezeichnungen für die Korpora werden im Abschnitt [*] eingeführt.

next up previous contents index
Nächste Seite: Alignment Aufwärts: Segmentierung eines Bitexts in Vorherige Seite: Granularität   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie