next up previous contents index
Nächste Seite: Berücksichtigung von ähnlichen TUs Aufwärts: Segmentierung eines Bitexts in Vorherige Seite: Übersetzung von Sätzen   Inhalt   Index

Unterabschnitte

Alignment

Ein Alignment2.7ist eine Zuordnungen der Einheiten von Ausgangs- und Zieltext. Jede Einheit gehört genau einer Translation Unit an. Eine Translation Unit kann sich jedoch aus beliebig vielen Einheiten der beiden Sprachseiten zusammensetzen.

Gewöhnlich wird eine andere Terminologie verwendet. Alignment ist auch in anderen Bereichen als Translation Memory wichtig. In der Fußnote [*] wird die Bioinformatik erwähnt. Die Einheiten der zu alignenden Texte werden Alignment Beads zugeordnet, die hier Translation Units sind. Im Allgemeinen müssen Alignment-Beads aber keine Translation Units sein. Zum einen ist die Anzahl der Texte nicht auf zwei beschränkt, und keiner der Texte ist als Ausgangstext ausgezeichnet. Zum anderen müssen sie auch nicht in verschiedenen Sprachen vorliegen. Beispielweise entwickeln () Alignment-Techniken zur Behandlung verschiedener Fassungen altertümlicher Texte. Ein ähnliches Gebiet ist der Vergleich der neuen Evangelien, bei denen Auslassungen und Überkreuzungen auftreten.

Die Einheiten eines Textes, die dem selben Alignment-Bead angehören, bilden eine Gruppe. Eine Translation Unit setzt sich also aus einer ausgangssprachlichen Gruppe und einer zielsprachlichen Gruppe zusammen.

Wenn von Zuordnungen gesprochen wird, gibt es mehrere Möglichkeiten dafür, was gemeint ist. Obige Definition eines Alignments kann man mathematisch mit einer Funktion $ b$ beschreiben, die die Einheiten auf Alignment-Beads abbildet. Was genau ein Alignment-Bead ist, spielt dabei keine Rolle. Es stellt lediglich die Verbindung her zwischen den Einheiten der einzelnen Texte. Als Wertebereich für $ b$ sind z.B. die natürlichen Zahlen geeignet. (Die dadurch eingeführte Ordnung der Alignment-Beads kann unabhängig von den Ordnungen der Einheiten sein.) Für ein Translation Memory ist die Ordnung irrelevant, da die Translation Units unabhängig voneinander eingesetzt werden.

Abbildung: Ein Alignment mit sechs Alignment-Beads
\begin{figure}\begin{center}
\begin{tabular}{cc}
Text 1 & Text 2 \\
\hline
\rul...
... & \framebox[16.0mm]{$E_8 \mapsto 6$} \\
\end{tabular}\end{center}
\end{figure}

Abbildung [*] zeigt ein Alignment von Einheiten $ D_1, ..., D_8$ zu Einheiten $ E_1, ..., E_8$. Die Bezeichnungen $ D_i$ und $ E_j$ sollen dabei für die Sprachseiten Deutsch ($ D$) und Englisch ($ E$) stehen, auch wenn diesem Beispiel kein Text zugrunde liegt. (Die Indizes $ i$ und $ j$ nummerieren die Einheiten in der Reihenfolge, wie sie in den Texten auftreten.) Das Alignment enthält sechs Alignment-Beads. Die Funktion $ b$ ist mit dem Symbol ,,$ \mapsto$`` angegeben.

Optimales Alignment

Wenn alle Zuordnungen eines Alignments korrekt sind, dann ist das Alignment zwar zulässig aber nicht zwingend so detailiert wie gewünscht. Insbesondere reicht es nicht aus, alle Einheiten einem einzigen Alignment-Bead zuzuordnen. (Außer natürlich, wenn z.B. ein Ausgangstext so frei übersetzt wurde, dass keine feinere Zuordnung möglich ist.) Was ein erwünschtes Alignment charakterisiert, wird aus folgender Definition der Optimalität eines Alignments deutlich: Ein Alignment ist optimal, wenn es zulässig ist und kein Alignment-Bead so in zwei nicht leere Beads aufgeteilt werden kann, dass die neuen Zuordnungen immer noch korrekt sind.

Die Definition der Optimalität eines Alignments setzt die Definiton der Korrektheit der Zuordnung der Einheiten zu den Alignment-Beads voraus. Die dem gleichen Alignment-Bead zugeordneten Einheiten aller Texte, die alignt werden, sollen sich in irgendeiner Form entsprechen. Im Falle des Alignments eines Ausgangstextes mit seiner Übersetzung kann diese Entsprechung die Übersetzungsentsprechung sein. Die zielsprachlichen Einheiten eines Alignment-Beads sollen eine korrekte Übersetzung der ausgangssprachlichen Einheiten bilden. Allgemein scheint die Semantik ein geeignetes Kriterium zu sein. Dies muss aber nicht so sein. Z.B. könnte man sich eine Anwendung vorstellen, in der die Absätze von Reden, die inhaltlich nicht zusammenhängen, aber von einem Autor stammen, nur nach stilistischen Merkmalen paarweise alignt werden.

Genau genommen fehlt in obiger Definition des optimalen Alignments eine Berücksichtigung der Reihenfolge der Einheiten innerhalb der zu alignenden Texte. Wenn z.B. im Ausgangstext eine Einheit doppelt vorkommt, dann wären sie nach der Definition austauschbar. Es würde keine Rolle spielen, ob das erste oder zweite Auftreten der ersten Übersetzung zugeordnet wird.2.8Das ist aber nicht gewollt. Es sollte die Zuordnung favorisiert werden, bei der die Kontexte der (über ein Alignment-Bead) einander zugeordneten Einheiten sich auch entsprechen. Die Zuordnung sollte die Reihenfolge der Einheiten möglichst erhalten, d.h. Überkreuzungen und Abweichungen von $ 1:1$ Zuordnungen sollten möglichst selten auftreten.

Häufig werden die möglichen Zuordnungen noch weiter eingeschränkt. () stellen eine Wortzuordnung nur zwischen Wörtern her, die in Sätzen stehen, die in einem zuvor durchgeführten Satzalignment einander zugeordnet wurden. Zuordnungen zwischen Wörtern aus verschiedenen Alignment-Beads werden dadurch ausgeschlossen. So ein hierarchisches Alignment ist durchaus typisch. Der Aligner, der in dieser Arbeit verwendet wird, führt erst ein triviales Absatzalignment durch, d.h. nur $ 1:1$ Zuordnungen werden erlaubt. (Hat ein Dokument in Ausgangs- und Zielsprache nicht die gleiche Anzahl von Absätzen, dann schlägt das Alignment fehl und das Dokument kann nicht weiter verwendet werden.) Das Satzalignment wird dann innerhalb der Absätze durchgeführt. So können nur Sätze einander zugeordnet werden, die in bereits einander zugeordneten Absätzen stehen. Die zu Grunde liegende Annahme ist, dass ein Übersetzer die vorliegende Absatzstruktur respektiert und keine Inhalte in andere Absätze verschiebt.

Zwei weitere Einschränkungen der Freiheit der Zuordnung, die der verwendete Satzaligner mit anderen Alignern teilt, sind der völlige Verzicht auf Überkreuzungen und die Forderung, dass je Text nur zusammenhängende Einheiten einem Alignment-Bead zugeordnet sein dürfen. Ob die letztere Bedingung bereits durch das Überkreuzungsverbot abgedeckt ist, hängt davon ab, was man genau unter einer Überkreuzung versteht. Auf eine Definition wird hier verzichtet, da sie für die Arbeit nicht wichtig ist. Ein kritischer Spezialfall sind solche $ n:0$ und $ 0:m$ Zuordnungen, die zwei Einheiten unterbrechen, die zum gleichen Alignment-Bead gehören, wie die Zuordnung 5 in Abbildung [*]. Beide Einschränkungen zusammen lassen sich formulieren als

$\displaystyle \forall i,j,k: b(e_{i,j}) > b(e_{i,k}) \rightarrow j > k,
$

wobei $ e_{i,j}$ die $ j$-te Einheit des $ i$-ten Textes ist und $ b$ die Einheiten auf die Nummern der Alignment-Bead abbildet. In Abbildung [*] verstoßen Einheiten in den Alignment-Beads 1, 2, 4 und 5 gegen diese Bedingung.

Die Definition eines zulässigen Alignments muss für jede dieser Einschränkungen angepasst werden, um die Begriffe Zulässigkeit und Optimalität weiter anwenden zu können. Beim Verzicht auf Überkreuzungen dürfen beispielsweise Alignments, die sich überkreuzende Zuordnungen enthalten, nicht zulässig sein. Eine Top-Down Suche nach einem optimalen Alignment beendet dann die Unterteilung von Alignment-Beads früher. Bereiche die eigentlich eine Überkreuzungen erfordern, werden dann durch eine große Zuordnung abgedeckt. In Abbildung [*] würden die Beads 1 und 2 durch eine $ 3:3$ Zurodnung und die Beads 4 und 5 durch eine $ 3:2$ Zuordnung ersetzt werden.

Viele Satzaligner verbieten zusätzlich $ n:m$ Zuordnungen mit $ \max(n,m)>2$. Dies geschieht vor allem, um die Anzahl der in Frage kommenden möglichen Zurordnungen und somit die Komplexität der Suche des optimalen Alignments zu reduzieren.

In der Praxis scheitert die Bestimmung eines optimales Alignment bereits daran, dass die Korrektheit einer Zuordnung nicht eindeutig festgestellt werden kann. Die Frage, ob zwei verschiedene Sätze das gleiche ausdrücken, kann nicht zweifelsfrei beantwortet werden. Ein maschineller Aligner kann die Korrektheit einer Zuordnung nur abschätzen. Man schwächt daher die Bedingung der Korrektheit der Zuordnungen ab, indem der Grad der Übereinstimmung der einander zugeordneten Einheiten verwendet wird, um jedes Alignment zu bewerten. Der Begriff der Zulässigkeit kann dann nicht mehr angwendet werden, bzw. jedes Alignment wird zulässig. Optimalität wird nun über die skalare Größe definiert, mit der jedes Alignment bewertet wird. Die Bewertung soll möglichst gut sein. Da die Zahl der Alignments endlich ist, gibt es immer mindestens ein optimales Alignment.

Die Bewertung eines Alignments kann neben der Übereinstimmung des Inhalts innerhalb der Alignment-Beads auch die Art der Zuordnung und die Entfernungen der Einheiten berücksichtigen. Ein maschineller Aligner hat also die Aufgabe, ein Alignment mit optimaler Gesamtbewertung zu finden. Abschnitt [*] beschreibt einen Satzaligner, der nach diesem Prinzip arbeitet.



Fußnoten

... Alignment2.7
Aus dem Englischen ,,alignment`` - ,,Abgleich``, ,,Anordnung``; die in der Vermessungskunde gebräuchliche französische Schreibung ,,Alignement`` wurde nicht übernommen. Folglich wird auch die Verbform ,,alignieren`` nicht verwendet und stattdessen ,,alignen`` von ,,to align`` benutzt. In der Bioinformatik haben sich die gleichen Bezeichnungen für das Zuordnen von DNS- und Proteinsequenzen durchgesetzt.
... wird.2.8
Natürlich muss eine zweite Übersetzung im Zieltext vorhanden sein, mit der die verbleibende Einheit in ein Alignment-Bead gestellt werden kann, damit ein zulässiges Alignment entstehen kann.

next up previous contents index
Nächste Seite: Berücksichtigung von ähnlichen TUs Aufwärts: Segmentierung eines Bitexts in Vorherige Seite: Übersetzung von Sätzen   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie