next up previous contents index
Nächste Seite: Ausblick Aufwärts: Korpusaufbereitung für CAT-Systeme Vorherige Seite: Bewertung   Inhalt   Index

Zusammenfassung

Das KoKS-Korpus ist ein paralleles Korpus mit den Sprachen Deutsch und Englisch und umfasst je Sprache etwa viereinhalb Millionen Wörter. Es ist mit POS-Tags und Lemmata annotiert und auf Satzebene alignt. Über die KoKS-Datenbank kann das Korpus flexibel eingesetzt werden. Indizes ermöglichen einen schnellen Zugriff auf das Korpus.

Im Rahmen dieser Arbeit wurden weitere Indizes implementiert, um die Fuzzy-Match-Suche effizienter durchführen zu können. Dabei wurde auch eine Lösung zu dem Problem entwickelt, dass im KoKS-Korpus die Grundformalternativen nicht explizit repräsentiert, sondern als ein mit einem speziellen Zeichen separierter String gespeichert werden, der in dieser Form vom IMS TreeTagger annotiert wird.

Es wurden Aspekte der Vorverarbeitung beleuchtet, die im KoKS Abschlussbericht nicht behandelt werden. Insbesondere wurde die Funktionsweise des IMS TreeTaggers erklärt, Probleme der Segmentierung aufgezeigt und auf Schwächen des KoKS-Aligners hingewiesen.

Mit der Aufnahme des Harry Potter Teilkorpus ist eine neue Textsorte im Korpus vertreten, die andere Eigenschaften hat, als die anderen Teilkorpora. Dies sind die wörtliche Rede und das sehr häufige Auftreten eines bestimmten Eigennamens. Trotzdem dominiert das EU Teilkorpus das Korpus durch seine Größe.



Unterabschnitte
next up previous contents index
Nächste Seite: Ausblick Aufwärts: Korpusaufbereitung für CAT-Systeme Vorherige Seite: Bewertung   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie