next up previous contents index
Nächste Seite: Alignment Aufwärts: Vorverarbeitung Vorherige Seite: POS-Tagging und Lammatisierung   Inhalt   Index

Unterabschnitte

Segmentierung

Unter Segmentierung versteht man die Zerlegung eines Textes in eine Sequenz von Segmenten. Die Art und Größe der Segmente kann je nach Zielsetzung sehr verschieden sein. In der Diskursanalyse werden sowohl grobe Segmentierungen, die vergleichbar sind mit der typographisches Dokumentstruktur (Abschnitte und Absätze), als auch sehr feine Segmentierungen, deren Segmente nur wenige Sätze umfassen, vorgenommen, siehe z.B. () Seite 5-8.

Im KoKS-System wird der Begriff Segment anders verstanden. In der Regel sind hier Segmente identisch mit Sätzen. Neben Satzgrenzen sind auch die während der Aufbereitung (siehe Abschnitt [*]) eingefügten Absatzgrenzen Segmentgrenzen, sodass auch Überschriften ein Segment bilden. Segmente können aber im KoKS-System auch mehrere Sätze umfassen oder leer sein. Der Aligner (siehe Abschnitt [*]) verschmilzt Segmente, um das Alignment zu repräsentieren. Nach dem Alignen besteht jedes Alignment-Bead aus genau einem deutschen und einem englischen Segment. In Abbildung [*] sieht man, wie vor dem Alignment jedes Satzende mit einem Segmentende zusammenfällt. Die Segmentendemarkierungen3.16nach dem Alignen zeigt Abbildung [*].

Segmente spielen im KoKS-System und im Translation Memory dieser Arbeit eine zentrale Rolle. Die Suche im Korpus erfolgt grundsätzlich segmentweise. Alle Indizes (siehe Abschnitt [*]) verweisen auf Segment-Nummern. Eine gute Erkennung der Satzgrenzen ist daher sehr wichtig. Der IMS TreeTagger entscheidet bereits im Tokenisierungsmodul für jeden Punkt, ob er ein Satzende kennzeichnet. Ein Punkt wird nur als eigenständiges Token behandelt, wenn er als Satzzeichen eingestuft wurde. Der Tokenisierer verfügt über eine Abkürzungsliste und erkennt auch Fälle wie z.B. ,,der 5. Punkt der Tagesordnung``.

Die Qualität der Klassifizierung der Punkte konnte im KoKS-Projekt mit einfachen Regeln noch weiter erhöht werden. Z.B. wird grundsätzlich ein Satzende angenommen, wenn nach einem Punkt ein Wort groß geschrieben wird, dessen Lemma klein geschrieben wird. (Das Lemma wird vom IMS Tagger annotiert.) Details finden sich im Anhang des KoKS-Abschlussberichts.

Bei ,,Water Rats`` in Anführungszeichen (siehe Tabelle [*]) verschluckt der KoKS-Satzendenerkenner das Wort ,,Rats``. Ist das Anführungszeichen nicht das letzte Zeichen der Eingabe, dann verschwindet dieser Fehler.

Wörtliche Rede

Ein spezielles Problem für die Segmentierung stellt wörtliche Rede dar. Da die Grenzen im KoKS-System nach Satzzeichen gezogen werden, gehört das schließende Anführungszeichen zum nächsten Segment, das dann je nach Situation eine ungerade Anzahl von Anführungszeichen enthält, mit zwei Anführungszeichen beginnt und/oder dessen Passagen genau invers in wörtliche Rede und normalen Text eingeteilt sind.

Abbildung: Segmentierungsfehler bei wörtlicher Rede
\begin{figure}\begin{center}
\begin{tabular}{p{10cm}}
... den Zettel , der am ra...
...in den Sessel neben Ron fallen ; ... \\
\end{tabular}\end{center}
\end{figure}
Abbildung [*] zeigt einen kurzen Ausschnitt aus dem Harry-Potter Korpus, in dem einige dieser Probleme auftreten. Eine einfache Lösung, die aus Zeitgründen nicht mehr umgesetzt wurde, wäre, die Segmentendemarkierungen immer dann hinter ein Anführungszeichen zu verschieben, wenn die Anzahl der Anführungszeichen im aktuellen Segment ungerade ist. Patrick Tschorn3.17 weist darauf hin, dass dies Verfahren scheitert, wenn Anführungszeichen fehlen, z.B. aufgrund von OCR-Fehlern.

Ein weiteres Problem der wörtliches Rede ist ihre Verzahnung mit dem sie umgebenen Text. Mit einer sequentiellen Segmentierung können solche Sätze nicht getrennt werden. Aber selbst diskontinuierliche Segmente reichen zur Lösung des Problems nicht aus, da Satzzeichen von beiden verzahnten Sätzen gemeinsam genutzt werden können. Regelmäßig geschieht dies mit satzbeendender Interpunktion, wenn die Satzenden zusammenfallen. Abbildung [*] zeigt, dass auch Satzzeichen an anderen Stellen fehlen können. Wie soll maschinell entschieden werden, ob und welches Satzzeichen zwischen ,,Klasse`` und ,,ich muss zu Zonko`` gesetzt werden soll, wenn die wörtliche Rede als eigenes Segment extrahiert werden würde?

OSCAR Standard für Segmentierungsregeln

Die OSCAR Segmentation Working Group3.18hat einen ersten Entwurf für einen Standard zum Beschreiben von Segmentierungsregeln vorgestellt. Der Entwurf wird hier diskutiert, um zu zeigen, mit welchen Methoden die Arbeitsgruppenmitglieder glauben, die Segmentierung leisten zu können.3.19Grundlage des Standards sind reguläre Ausdrücke, die die möglichen Zeichenfolgen vor und nach einer Segmentgrenze angeben. Zusätzlich können Ausnahmeregeln formuliert werden. Wie die Regeln zusammenwirken, wird in dem Entwurf (noch) nicht definiert. Es sind keine Elemente vorhanden, um Ausnahmen auf bestimmte Regeln zu beziehen. Dies und das enthaltene Beispiel legen nahe, dass eine potenzielle Segmentgrenze mit linkem Konkext $ c_l$ und rechtem Kontext $ c_r$ genau dann als Segmentgrenze akzeptiert wird, wenn

$\displaystyle \bigvee_{(b,a) \in R} (M(b+'\$', c_l) \wedge M('\hat{~}\,'+a, c_r...
...wedge \neg
\bigvee_{(b,a) \in E} (M(b+'\$', c_l) \wedge M('\hat{~}\,'+a, c_r))
$

wahr ist, wobei $ M$ das Matching-Prädikat für reguläre Ausdrücke ist.

Im Entwurf wird ein Beispielregelsatz angegeben, der Punkt, Fragezeichen und Ausrufezeichen als Satzendemarkierungen erkennt und als Ausnahmen Nummerierungen von Listen und die Abkürzung ,,etc`` berücksichtigt. Um die XML-Notation des Standard hier nicht vorstellen zu müssen, sind die Regeln im folgenden als Mengen passend zur obigen Formel wiedergegeben:

[frame=none]
R = {
   ('[\.\?!]+', '\s'),
   ('', '\n'),
}
E = {
   ('^\s*[0-9]+\.', '\s'),
   ('[Ee][Tt][Cc]\.', ''),
}

Die Muster \s und \n stehen dabei für beliebigen Leeraum und Zeilenumbrüche. (Letzteres Muster wurde im Entwurf nicht definieren.) Die erste Ausnahmeregel setzt voraus, dass vorangehende Segmentgrenzen bereits identifiziert wurden, die Abarbeitung also sequentiell erfolgt.

Es wird nicht angedeutet, ob Zugriffsmöglichkeiten auf ein Lexikon geplant sind. Dies wäre sinnvoll, um nicht für jede einzelne Abkürzung eine Regel formulieren zu müssen. Ebensowenig kann mit tokenisiertem Text umgegangen werden, da keine Muster für Tokengrenzen definiert werden. POS-Muster und Grundformen können nicht für die Segmentierung herangezogen werden.



Fußnoten

... Segmentendemarkierungen3.16
Die für die Markierung verwendete Zeichenfolge <segmentgrenze> ist irreführend. Dem letzten Segment muss eine Segmentmarkierung folgen, während vor dem ersten Segment keine Markierung stehen darf. Es handelt sich also um eine Endemarkierung und nicht um eine Grenzmarkierung.
... Tschorn3.17
persönliche Kommunikation
... Group3.18
http://lisa.org/oscar/seg/
... können.3.19
Dies muss nicht den Stand der Entwicklung in den einzelnen beteiligten Unternehmen wiederspiegeln. Womöglich werden Informationen zurückgehalten, um den Mitbewerbern keinen Einblick in die eigenen Lösungsansätze zu gewähren. Dann wäre allerdings zu Fragen, warum überhaupt an einem gemeinsamen Standard für den Austausch von Segmentierungsregeln gearbeitet wird.

next up previous contents index
Nächste Seite: Alignment Aufwärts: Vorverarbeitung Vorherige Seite: POS-Tagging und Lammatisierung   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie