Der Leser, der eine Fremdsprache gelernt hat, wird sicherlich nachvollziehen
können, dass auf der Ebene der Wörter und Phrasen keine sequentielle
Zuordnung möglich ist, d.h. dass die Reihenfolge dort nicht immer
beibehalten, ein Wort durch mehrere wiedergegeben oder auch Teile
kompakter übersetzt werden können.
Aber bei Sätzen und Absätzen liegt dies nicht gleich auf der Hand.
In diesem Unterabschnitt werden daher
Zahlen aus
dem Korpus vorgestellt, das in dieser Arbeit verwendet und in Abschnitt
ausführlich vorgestellt wird.
Wenn man die Anzahl der Sätze im Ausgangstext mit der der Übersetzung
vergleicht, dann ergibt sich eine untere Schranke für die Anzahl der
Sätze, die nicht
einem anderen Satz zugeordnet werden können.
Man könnte vermuten, dass beim Übersetzen bestimmte Alignment-Beads
(neben den dominierenden
Zuordnungen) unabhängig vom
Übersetzer oder von der Übersetzungsrichtung bevorzugt werden.
Tabelle
zeigt ein etwas unklareres Bild.
Der Rückgang der Anzahl der Sätze um über sieben Prozent bei den
DE-News Texten kann darauf zurückzuführen sein, dass Freiwillige die
Übersetzungen anfertigen, die zum größten Teil vermutlich nicht
dazu ausgebildet sind.
Des Weiteren werden einzelne Nachrichten gar nicht übersetzt, wenn
die Redaktion der Ansicht ist, dass sie für die Leser uninteressant
sind.
Auch wurde beobachtet, dass zum Ende einer Nachricht weitere
Ausführungen des Ausgangstextes ausgelassen wurden.
Bei den Harry Potter Büchern dürften andere Gründe vorliegen. Sie wurden von Bewunderern der Bücher eingescannt und am Computer in Text umgewandelt. In einer kleinen Stichprobe fällt auf, dass einige offensichtliche Kommata von der OCR als Punkte interpretiert wurden. Des Weiteren hat der Übersetzer an Stelle eines Semikolons gelegentlich einen Punkt gesetzt.2.5Das Korpus EU2.6verhält sich dagegen wie erwartet, wenn man annimmt, dass die Texte mehrheitlich von Englisch nach Deutsch übersetzt wurden. Die Zunahme der Anzahl der Sätze durch das Übersetzen um etwa zwei bis drei Prozent kann durch die Neigung von Übersetzern, Sätze aufzuteilen, erklärt werden.
Um ein genaueres Bild zu erhalten, muss man untersuchen, welche
Zuordnungen tatsächlich auftreten.
Einen guten Anhaltspunkt gibt das maschinell erstellte Alignment.
Die Häufigkeiten der verschiedenen Zuordnungen sagen mehr aus als
die Satzanzahlen.
Wenn z.B. neben
Zuordnungen nur vereinzelt
Zuordnungen
mit großem
aufträten, dann würde dies bedeuten, dass lediglich einige
Textpassagen weggelassen wurden.
Hingegen würden viele
Zuordnungen die Annahme stützen, dass
Übersetzer zum Aufteilen von Sätzen neigen.
Tabelle
zeigt
die Häufigkeiten der wichtigsten Zuordnungsarten aufgeschlüsselt nach
den verwendeten Korpora.
Unabhängig von der Übersetzungsrichtung bedeutet hier eine
Zuordnung,
dass
Sätze des Deutschen zusammen mit
Sätzen des Englischen eine
Translation Unit bilden.
Die Richtung der Übersetzung kann der Tabelle
entnommen werden.
Im EU Korpus können auch Dokumente enthalten sein, die aus einer
dritten Sprache übersetzt wurden.
Wie groß deren Anteil am Korpus ist, kann der KoKS Dokumentation nicht
entnommen werden.
|
Die Zahlen machen deutlich, dass wesentlich mehr von
Zuordnungen
abweichende Zuordnungen auftreten, als notwendig wären, um die Differenz
in den Satzanzahlen zu überbrücken.
Beispielweise hätten beim EU Korpus 2502
Zuordnungen und 107824
Zuordnungen ausgereicht, um ein Alignment zwischen den Texten
herzustellen.
(Dabei würden durch Dokument- und Absatzgrenzen implizierte
Ankerpunkte des Alignment höchstwahrscheinlich verletzt.)
Tatsächlich treten mehr als fünf mal so viele, nämlich 13317,
nicht
Zuordnungen auf, darunter viele
Zuordnungen.
|
Vergleicht man den Anteil der
Zuordnungen, der in
Tabelle
prozentual angegeben ist,
mit den Werten aus einer
Untersuchung von () und den Zahlen zum ARCADE-Korpus
(() Seite 374-375),
fällt auf, dass die Werte im KoKS-Korpus kaum variieren.
findet deulich mehr
Zuordnungen.
Nur einer von zwei Romanen kommt beim ihm mit 91 % in die Nähe
des Wertes für die Harry-Potter-Bücher.
Im ARCADE-Korpus weist das literarische Teilkorpus dagegen nur zu
76 %
Zuordnungen auf.
Das Verhältnis von
und
Zuordnungen im KoKS-Korpus scheint
ungewöhnlich zu sein.
Gerade bei Romanen findet nur sehr wenige
Zuordnungen.
Bei der Interpretation der Zahlen muss man beachten, dass unterschiedliche
Aligner verwendet wurden.
Der KoKS-Aligner erzeugt nur
oder
Zuordnungen, wenn in einer
Sprachseite ein leerer Absatz vorliegt.
Der von () eingesetzte Aligner aus der Werkzeugsammlung
,,DAVE`` kann solche Zuordnungen in großer Zahl hervorbringen,
wenn ein Text frei übersetzt ist.
Zumindest folgert er im ersten Absatz vom Abschnitt 3.2 umgekehrt, dass
ein Teilkorpus frei übersetzt sein müsse, da sein Aligner Löschungen und
Einfügungen erkannt hat:
The OS2 text has a strikingly high proportion of deletions (1-0) and insertions (0-1) which indicate that the translation is not particularly close to the original, but is rather a kind of communicative, more target-oriented translation.
eingeführt.