Ein Alignment2.7ist eine Zuordnungen der Einheiten von Ausgangs- und Zieltext. Jede Einheit gehört genau einer Translation Unit an. Eine Translation Unit kann sich jedoch aus beliebig vielen Einheiten der beiden Sprachseiten zusammensetzen.
Gewöhnlich wird eine andere Terminologie verwendet.
Alignment ist auch in anderen Bereichen als Translation Memory wichtig.
In der Fußnote
wird die Bioinformatik erwähnt.
Die Einheiten der zu alignenden Texte werden
Alignment Beads zugeordnet, die hier Translation Units
sind.
Im Allgemeinen müssen Alignment-Beads aber keine Translation Units sein.
Zum einen ist die Anzahl der Texte nicht auf zwei beschränkt, und keiner
der Texte ist als Ausgangstext ausgezeichnet.
Zum anderen müssen sie auch nicht in verschiedenen Sprachen vorliegen.
Beispielweise entwickeln ()
Alignment-Techniken zur Behandlung verschiedener Fassungen
altertümlicher Texte.
Ein ähnliches Gebiet ist der Vergleich der neuen Evangelien, bei denen
Auslassungen und Überkreuzungen auftreten.
Die Einheiten eines Textes, die dem selben Alignment-Bead angehören, bilden eine Gruppe. Eine Translation Unit setzt sich also aus einer ausgangssprachlichen Gruppe und einer zielsprachlichen Gruppe zusammen.
Wenn von Zuordnungen gesprochen wird, gibt es mehrere Möglichkeiten dafür,
was gemeint ist.
Obige Definition eines Alignments kann man mathematisch mit einer
Funktion
beschreiben, die die Einheiten auf Alignment-Beads abbildet.
Was genau ein Alignment-Bead ist, spielt dabei keine Rolle.
Es stellt lediglich die Verbindung her zwischen den Einheiten der
einzelnen Texte.
Als Wertebereich für
sind z.B. die natürlichen Zahlen geeignet.
(Die dadurch eingeführte Ordnung der Alignment-Beads kann unabhängig
von den Ordnungen der Einheiten sein.)
Für ein Translation Memory ist die Ordnung irrelevant, da die
Translation Units unabhängig voneinander eingesetzt werden.
Abbildung
zeigt ein Alignment von
Einheiten
zu Einheiten
.
Die Bezeichnungen
und
sollen dabei für die Sprachseiten
Deutsch (
) und Englisch (
) stehen, auch wenn diesem
Beispiel kein Text zugrunde liegt.
(Die Indizes
und
nummerieren die Einheiten in
der Reihenfolge, wie sie in den Texten auftreten.)
Das Alignment enthält sechs Alignment-Beads.
Die Funktion
ist mit dem Symbol ,,
`` angegeben.
Wenn alle Zuordnungen eines Alignments korrekt sind, dann ist das Alignment zwar zulässig aber nicht zwingend so detailiert wie gewünscht. Insbesondere reicht es nicht aus, alle Einheiten einem einzigen Alignment-Bead zuzuordnen. (Außer natürlich, wenn z.B. ein Ausgangstext so frei übersetzt wurde, dass keine feinere Zuordnung möglich ist.) Was ein erwünschtes Alignment charakterisiert, wird aus folgender Definition der Optimalität eines Alignments deutlich: Ein Alignment ist optimal, wenn es zulässig ist und kein Alignment-Bead so in zwei nicht leere Beads aufgeteilt werden kann, dass die neuen Zuordnungen immer noch korrekt sind.
Die Definition der Optimalität eines Alignments setzt die Definiton der Korrektheit der Zuordnung der Einheiten zu den Alignment-Beads voraus. Die dem gleichen Alignment-Bead zugeordneten Einheiten aller Texte, die alignt werden, sollen sich in irgendeiner Form entsprechen. Im Falle des Alignments eines Ausgangstextes mit seiner Übersetzung kann diese Entsprechung die Übersetzungsentsprechung sein. Die zielsprachlichen Einheiten eines Alignment-Beads sollen eine korrekte Übersetzung der ausgangssprachlichen Einheiten bilden. Allgemein scheint die Semantik ein geeignetes Kriterium zu sein. Dies muss aber nicht so sein. Z.B. könnte man sich eine Anwendung vorstellen, in der die Absätze von Reden, die inhaltlich nicht zusammenhängen, aber von einem Autor stammen, nur nach stilistischen Merkmalen paarweise alignt werden.
Genau genommen fehlt in obiger Definition des optimalen Alignments eine
Berücksichtigung der Reihenfolge der Einheiten innerhalb der
zu alignenden
Texte.
Wenn z.B. im Ausgangstext eine Einheit doppelt vorkommt, dann wären sie
nach der Definition austauschbar.
Es würde keine Rolle spielen, ob das erste oder zweite Auftreten der
ersten Übersetzung zugeordnet wird.2.8Das ist aber nicht gewollt.
Es sollte die Zuordnung favorisiert werden, bei der die Kontexte der
(über ein Alignment-Bead) einander zugeordneten Einheiten sich auch
entsprechen.
Die Zuordnung sollte die Reihenfolge der Einheiten möglichst erhalten,
d.h. Überkreuzungen und Abweichungen von
Zuordnungen sollten
möglichst selten auftreten.
Häufig werden die möglichen Zuordnungen noch weiter eingeschränkt.
() stellen eine Wortzuordnung
nur zwischen Wörtern her, die in Sätzen stehen, die in
einem zuvor durchgeführten Satzalignment einander zugeordnet wurden.
Zuordnungen zwischen Wörtern aus verschiedenen Alignment-Beads werden dadurch
ausgeschlossen.
So ein hierarchisches Alignment ist durchaus typisch.
Der Aligner, der in dieser Arbeit verwendet wird, führt erst ein
triviales Absatzalignment durch, d.h. nur
Zuordnungen werden
erlaubt.
(Hat ein Dokument in Ausgangs- und Zielsprache nicht die gleiche
Anzahl von Absätzen, dann schlägt das Alignment fehl und das Dokument
kann nicht weiter verwendet werden.)
Das Satzalignment wird dann innerhalb der Absätze durchgeführt.
So können nur Sätze einander zugeordnet werden, die in bereits einander
zugeordneten Absätzen stehen.
Die zu Grunde liegende Annahme ist, dass ein Übersetzer die vorliegende
Absatzstruktur respektiert und keine Inhalte in andere Absätze
verschiebt.
Zwei weitere Einschränkungen der Freiheit der Zuordnung, die der
verwendete Satzaligner mit anderen Alignern teilt, sind
der völlige Verzicht auf Überkreuzungen
und die Forderung, dass je Text nur zusammenhängende Einheiten einem
Alignment-Bead zugeordnet sein dürfen.
Ob die letztere Bedingung bereits durch das Überkreuzungsverbot abgedeckt
ist, hängt davon ab, was man genau unter einer Überkreuzung versteht.
Auf eine Definition wird hier verzichtet, da sie für die Arbeit nicht
wichtig ist.
Ein kritischer Spezialfall sind solche
und
Zuordnungen, die zwei
Einheiten unterbrechen, die zum gleichen Alignment-Bead gehören, wie
die Zuordnung 5 in Abbildung
.
Beide Einschränkungen zusammen lassen sich formulieren als
verstoßen Einheiten in den
Alignment-Beads 1, 2, 4 und 5 gegen diese Bedingung.
Die Definition eines zulässigen Alignments muss für jede
dieser Einschränkungen angepasst werden, um die Begriffe
Zulässigkeit und Optimalität weiter anwenden zu können.
Beim Verzicht auf Überkreuzungen dürfen beispielsweise Alignments,
die sich überkreuzende Zuordnungen enthalten, nicht zulässig sein.
Eine Top-Down Suche nach einem optimalen Alignment beendet dann
die Unterteilung von Alignment-Beads früher.
Bereiche die eigentlich eine Überkreuzungen erfordern, werden dann
durch eine große Zuordnung abgedeckt.
In Abbildung
würden die Beads 1 und 2
durch eine
Zurodnung und die Beads 4 und 5 durch eine
Zuordnung ersetzt werden.
Viele Satzaligner verbieten zusätzlich
Zuordnungen mit
.
Dies geschieht vor allem, um die Anzahl der in Frage kommenden möglichen
Zurordnungen und somit die Komplexität der Suche des optimalen Alignments
zu reduzieren.
In der Praxis scheitert die Bestimmung eines optimales Alignment bereits daran, dass die Korrektheit einer Zuordnung nicht eindeutig festgestellt werden kann. Die Frage, ob zwei verschiedene Sätze das gleiche ausdrücken, kann nicht zweifelsfrei beantwortet werden. Ein maschineller Aligner kann die Korrektheit einer Zuordnung nur abschätzen. Man schwächt daher die Bedingung der Korrektheit der Zuordnungen ab, indem der Grad der Übereinstimmung der einander zugeordneten Einheiten verwendet wird, um jedes Alignment zu bewerten. Der Begriff der Zulässigkeit kann dann nicht mehr angwendet werden, bzw. jedes Alignment wird zulässig. Optimalität wird nun über die skalare Größe definiert, mit der jedes Alignment bewertet wird. Die Bewertung soll möglichst gut sein. Da die Zahl der Alignments endlich ist, gibt es immer mindestens ein optimales Alignment.
Die Bewertung eines Alignments kann neben der Übereinstimmung des
Inhalts innerhalb der Alignment-Beads auch die Art der Zuordnung
und die Entfernungen der Einheiten berücksichtigen.
Ein maschineller Aligner hat also die Aufgabe, ein Alignment mit
optimaler Gesamtbewertung zu finden.
Abschnitt
beschreibt einen Satzaligner, der nach diesem
Prinzip arbeitet.