In dieser Arbeit möchte ich eine Idee aufgreifen, die mir mein Zweitbetreuer Helmar Gust im Anschluss an einen Vortrag vorstellte. Gewöhnliche Translation Memorys nutzen nur einen Satz aus dem Referenzmaterial. Zwar können sie dem Übersetzer alle Fundstellen im Referenzmaterial anzeigen. Aber letztendlich muss er einen Satz auswählen, dessen Übersetzung als Vorlage dienen soll. Das Zusammensetzen der Übersetzung aus verschiedenen Fundstellen wird von TM-Software aus guten Gründen nicht unterstützt.
Wenn man auf mehrere im Translation Memory gespeicherte Sätze, die nur teilweise mit dem zu übersetzenden Satz übereinstimmen, zurückgreifen möchte, um eine Rohübersetzung zu generieren, dann treten viele Probleme auf. Die Übersetzungen der übereinstimmenden Passagen der Referenzsätze müssen identifiziert und zu einem neuen Satz zusammengesetzt werden. Hierbei kann je nach Zielsprache die Reihenfolge der Teile eine Rolle spielen, und die Teile können aus verschiedenen Gründen nicht zusammen passen. Zum Beispiel kann die Übersetzung 'sprangen ... aus dem Zug' von '... hopped off the train' im Deutschen nur in der ersten und dritten Person Plural benutzt werden. Maschinell zu überprüfen, ob wie im Beispiel Person und Numerus abweichen, ist schwierig. Es ist aber auch nicht notwendig, da es für einen Übersetzer einfach ist, die Flexion anzupassen.
Die Idee ist nun, diese Probleme zu reduzieren, indem nur solche Referenzsätze herangezogen werden, deren syntaktische Struktur mit der des zu übersetzenden Satzes übereinstimmt. Die Struktur kann u.a. an der Abfolge der Wortarten erkannt werden. Ein sehr einfacher Ansatz könnte verlangen, dass die Wortarten vollständig übereinstimmen. Dann werden in der Regel1.8 die syntaktischen Strukturen -- angefangen von der Abfolge der einzelnen Satzteile bis hin zu der inneren Struktur der Phrasen -- den gleichen Aufbau haben. Eventuell müssen für bestimmte Wortarten, z.B. Präpositionen und Verben, auch die Wörter bzw. Grundformen übereinstimmen, um unbrauchbare Referenzsätze auszuschließen. Dies in Ansätzen zu untersuchen wird der zentrale Gegenstand der vorliegenden Magisterarbeit sein.
Ein weiteres Problem ist die Identifikation der Übersetzung von den Teilen der Referenzsätze, auf die zurückgegriffen werden soll. Hier bieten sich zwei grundsätzliche Vorgehensweisen an. Zum einen könnte man auf einen der verschiedenen bereits veröffentlichten Ansätze zurückgreifen. Problematisch ist, dass die meisten Ansätze Terminologie oder Phrasen aus größeren Korpora und nicht aus einzelnen Satzpaaren extrahieren. Alternativ könnte man den Ansatz aus dem Studienprojekt KoKS (, ) verwenden, mit dem ich vertraut bin, da ich Mitglied dieses Projekts war. Die Ergebnisse des Studienprojekts zeigen aber, dass der Ansatz noch nicht ausgereift ist. Es treten viele falsche Zuordnungen auf.
In dieser Arbeit soll ein Ansatz mit Hilfe von Beispielen aus einem Deutsch-Englischen Übersetzungskorpus skizziert werden, der sich nur auf einfache linguistischer Werkzeuge, nämlich POS-Tagging und Lemmatisierung, und parallele Korpora stützt. Dies ist eine gute Voraussetzung dafür, dass es sich leicht an andere Sprachen anpassen lässt. Spezielle Probleme des Deutschen, z.B. Partikelverben und Komposita, sollen, soweit es sich vermeiden lässt, in dieser Arbeit nicht behandelt werden.
Eine wichtige Grundlage für das Verfahren ist das zweisprachige Referenzmaterial, das es erlaubt, einzelne Sätze mit ihrer Übersetzung abzurufen. Dessen Aufbereitung für die Nutzung in der zum Ziel gesetzten Anwendungsperspektive wird einen großen Teil dieser Arbeit einnehmen.
Zusammengefasst ist also das Ziel meiner Arbeit, einen Ansatz zur Generierung von Übersetzungsvorschlägen auf Basis eines bilingualen Korpus soweit zu beschreiben, dass seine Realisierbarkeit beurteilt werden kann. Die Konkretisierung soll soweit gehen, dass der Ansatz zumindest manuell auf einen Testkorpus angewendet werden kann. Dabei ist klar, dass keine Ergebnis genannt oder gar eine Evalution der Übersetzungsleistung durchgeführt werden kann. Ziel soll es sein, die einzelnen Schritte des Verfahrens angemessen zu beschreiben und mit Korpusbelegen zu erläutern.