next up previous contents index
Nächste Seite: Segmentierung Aufwärts: Vorverarbeitung Vorherige Seite: Tokenisierung   Inhalt   Index

Unterabschnitte

POS-Tagging und Lammatisierung

Beim Tagging wird jedes Token mit Informationen angereicht. Die Art der Informationen kann sehr unterschiedlich sein. Ebenso vielfältig sind die Anwendungen, bei denen Tagging nützlich ist. Einen Einblick bieten (). Die Bezeichnung ,,Tag``, die mit ,,Etikett`` oder ,,Anhängsel`` übersetzt werden kann, deutet darauf hin, dass Tags sich immer auf genau ein Token beziehen. Der Aufbau tokenübergreifender Strukturen, wie z.B. beim Parsing, wird nicht unter Tagging zusammengefasst. Prinzipiell ist es aber möglich, Relationen zwischen Token mit Tags zu annotieren.

Im KoKS-System werden die Wortart (Part of Speech, POS) und das Lemma (die Grundform) jedes Tokens annotiert. Dazu wird der IMS TreeTagger3.9eingesetzt, der die Sprachen Deutsch und Englisch, die im KoKS-Projekt auftreten, unterstützt.3.10

Tagsets

Ein Tagset ist die Menge der Tags, die annotiert werden können. Der IMS TreeTagger verwendet für die unterstützen Sprachen unterschiedliche POS-Tagsets. Für Englisch ist es das Penn-Treebank3.11Tagset, für Deutsch das kleine (s.u.) STTS Tagset. Informationen zu den Tagsets stehen auf der Webseite zum IMS TreeTagger (siehe Fußnote [*]) und zur Verfügung, die auch im KoKS-Abschlussbericht zusammengefasst sind.

Die Tagsets gehen über die Hauptwortarten deutlich hinaus. Sie umfassen 48 (Penn-Treebank) bzw. 54 (IMS TreeTagger) POS-Tags. Das STTS Tagset ist hierarchisch aufgebaut. Jedes Tag gehört zu einer von elf Hauptwortarten (Nomina, Verben, Artikel, Adjektive usw.) oder ist ein spezielles Tag, z.B. für Satzzeichen. Sieben Hauptwortarten sind weiter unterteilt in Unterwortarten. Beispielsweise sind Nomina gegliedert in Eigennamen und ,,normale Nomina`` (Zitat STTS Tagging Guideline3.12). Die Pronomina sind noch in einer dritten Hierarchieebene unterteilt. Das große STTS Tagset3.13gliedert die Tags noch weiter, um detailiertere Informationen, z.B. zu Kasus, Numerus und Genus bei Nomina, annotieren zu können, wird aber vom IMS TreeTagger nicht benutzt.

Die Lemmatisierung wird häufig nicht als Tagging, sondern nur als Nebenprodukt des POS-Tagging wahrgenommen, da sie von den meisten POS-Taggern optional angeboten wird. Da jedem Token eine Grundform zugewiesen wird, kann man auch hier von Tagging sprechen. Das Tagset umfasst alle Grundformen, die potentiell vom Tagger annotiert werden können. Im Falle des IMS TreeTaggers ist das Tagset eine endliche Menge, da die Grundformen mit der Vollform (also dem Token) nachgeschlagen werden.3.14Eine Analysekomponente, die unbekannte Wörter auf eine Grundform reduzieren kann, wird in der Beschreibung des IMS TreeTaggers nicht erwähnt.

Abbildung: getaggtes Dokumentpaar
\begin{figure}\begin{center}
\begin{tabular}{p{1.8cm}p{1.5cm}p{1.8cm}\vert p{1.8...
...auch & \verb/</segmentgrenze\verb/>/&&\\
\end{tabular}\end{center}
\end{figure}
Abbildung [*] zeigt einen Ausschnitt aus dem getaggten Beispieldokumentpaar. An den POS-Tags der Artikel beider Sprachen kann man auch ohne Kenntnis der Tagsets erkennen, dass sie unterschiedlich sind.

Funktionsweise

Viele POS-Tagger arbeiten laut () in drei Schritten (Seite 109-110): Tokenisierung (bereits im Abschnitt [*] behandelt), Ermittlung der Tags, die für jedes einzelne Token in Frage kommen, und Auswahl eines Tags je Token mit Hilfe eines Modells der Sprache.

Der IMS TreeTagger benutzt eine Vollformliste, um ein Token auf einen Wahrscheinlichkeitsvektor abzubilden. Das heißt, dass nicht nur aufgelistet wird, welche Tags für das betreffende Token möglich sind, sondern darüber hinaus auch eine Wahrscheinlichkeit für jedes POS-Tag angegeben wird. Ist das Token nicht verzeichnet, dann stehen dem IMS TreeTagger noch andere Methoden zur Verfügung, um zu einem Wahrscheinlichkeitsvektor zu gelangen, siehe () und (). Beispielsweise können aus den letzten Zeichen des unbekannten Wortes Informationen gewonnen werden.

Im nächsten Schritt (dem dritten nach der Liste von ) entscheidet der IMS Tagger welches Tag dem Token tatsächlich zugewiesen wird. Der Tagger nutzt wie viele andere POS-Tagger auch ein Markov Modell, innerhalb dessen mit dem Viterbi Algorithmus die wahrscheinlichste Tagsequenz gefunden wird. Die Übergangswahrscheinlichkeiten zwischen den Zuständen des Modells werden vorab aus einem Trainingskorpus, das manuell annotiert wurde, ermittelt. Hier wendet der IMS TreeTagger einen Decision Tree (Entscheidungsbaum) an, um Zustände zusammenzulegen. Auf diese Weise wird das so genannte Sparse Data Problem umgangen, das darin besteht, dass nicht genug Daten vorhanden sind, um alle Übergangswahrscheinlichkeiten zuverlässig abschätzen zu können. Der Entscheidungsbaum spielt also nur in der Trainingsphase eine Rolle. Das eigentliche Tagging bedient sich dann des Markov Modells, dessen Parameter im Training bestimmt wurden. Auf verschiedene Erweiterungen, die für das Training des deutschen Taggers notwendig waren, da dort das Trainingskorpus kleiner war, geht () im zweiten Artikel ein.

Zum Verständnis der Artikel von sollte man mit verschiedenen bedingten Wahrscheinlichkeiten von Wort- und Tagsequenzen umgehen können. Eine gute Einführung bieten () in einem Kapitel über Markov Modelle (Seite 318-340). Das anschliessende Kapitel über POS-Tagging (Seite 341-381) ist zur Vertiefung sicherlich lesenswert, aber zum Erarbeiten der genannten Artikel über den IMS TreeTagger nicht erforderlich. Weitere Bemerkungen zur Feinabstimmung des Markov Modells finden sich in (). () erläutern am Beispiel ,,will to fight`` das Unvermögen von POS-Taggern, die auf einem Markov Modell basieren, Informationen von Vorgängertoken und Nachfolgertoken gleichermaßen zu nutzen. Dies führe dazu, dass im Beispiel entweder ,,will`` als Verb oder ,,fight`` als Nomen getaggt wird.

Lemmatisierung

Zur Lemmatisierung erwähnt () lediglich, dass beim Aufbau des Vollformlexikons, das die Wahrscheinlichkeitsvektoren der einzelnen POS-Tags aufnimmt, auch die Analyseergebnisse der Morphologiekomponente ,,DMOR`` einflossen (Abschnitt 4 ,,Tests``). Wie genau die Lemmatisierung funktioniert, kann den Quellen nicht entnommen werden. Vermutlich wurden auch die bei der DMOR-Analyse bestimmten Grundformen in das Vollformlexikon aufgenommen, sodass der Tagger in der Lage ist, diese zu annotieren. Die Lemmatisierung spielt in der Darstellung des POS-Taggers keine Rolle, ist also kein Nebenprodukt, sondern eine zusätzliche Leistung des IMS TreeTaggers.3.15

Wichtig für diese Arbeit (und auch für das KoKS-System) ist die Tatsache, dass der IMS TreeTagger keine Disambiguierung der Lemmata vornimmt. Kommen für ein Token mehrere Grundformen in Frage, dann annotiert der Tagger alle Alternativen.

Tabelle: Token mit mehreren annotierten Grundformen (Auswahl)
Häufigkeit Token POS-Tag Lemmata
2 Andreas NE Andrea, Andreas
12 Antworten NN Antwort, Antworten
14 führen VVFIN fahren, führen
26 gelangt VVPP gelangen, langen
54 gewährt VVPP gewähren, währen
14 Listen NN List, Liste, Listen
15 Mitteln NN Mittel, Mitteln
23 Studien NN Studie, Studium


Tabelle [*] zeigt einige Beispiele aus dem Teilkorpus EU/1998. Die POS-Tags sind mit angegeben, da der IMS TreeTagger scheinbar die Liste der Grundformen auf solche Grundformen beschränkt, die mit dem für das Token bestimmte POS-Tag vereinbar sind.
Abbildung: Einfluss der POS-Wahl auf die Lemmatisierung
\begin{figure}\begin{center}
\begin{tabular}{cc}
\begin{tabular}{l\vert l\vert l...
...\\
. & \$. & . \\
\par
\end{tabular}\\
\end{tabular}\end{center}
\end{figure}
Ein geeignetes Token für einen Test des Verhaltens des Taggers ist ,,Gefallen``. In einem Kontext, in dem es als Nomen getaggt wird aber auch isoliert betrachtet ein Verb sein könnte, d.h. am Satzanfang steht, müssten auch die Verben ,,fallen`` und ,,gefallen`` annotiert werden, wenn das POS-Tag keine Rolle spielt. Abbildung [*] zeigt, dass je nach POS-Tag eine andere Grundformenliste annotiert wird. In den Testsätzen sind zwei POS-Taggingfehler enthalten, die in der Abbildung mit Sternchen markiert wird.

Im Deutschen sind viele Verben und Nomen betroffen. Im Englischen treten lexikalische Mehrdeutigkeiten innerhalb einer Wortklasse viel seltener, im gesamten KoKS-Korpus gar nicht, auf. Ein Beispiel wäre ,,saw``: Als Verb kann es die Vergangenheitsform von ,,see`` (sehen) und Präsenz von ,,saw`` (sägen) sein. (Des Weiteren kann es das Nomen ,,saw`` (Säge) sein.)

Schließlich muss bei den annotierten Grundformen beachtet werden, dass der IMS TreeTagger nicht alle Token, die in einer Eingabe auftreten können, in seiner Vollformenliste verzeichnet haben kann. Unbekannte Wörter erhalten die Grundform ,,<unknown>``.

Tabelle: Häufige Token mit unbekannter Grundform
Deutsch Englisch
   
Häufigkeit Token
7562 Mio.
4913 *
4172 dass
3251 EU
2749 Ron
2096 |
2002 Hermine
1903 muss
1480 Euro
1130 dich
1005 Hagrid
1000 Dumbledore
Häufigkeit Token
5940 EU
5219 ECU
3004 SPD
2398 |
2096 Hermione
1648 DM
1169 Hagrid
1063 MECU
1058 Dumbledore
942 Bundestag
920 FDP
871 euro


Tabelle [*] zeigt die häufigsten betroffenen Token im KoKS-Korpus.

Fehlerrate

Wichtig für die Andwendungen in KoKS und in dieser Arbeit ist auch die Fehlerrate des Taggers. Der getaggte Text in Abbildung [*] offenbart bereits, dass der Tagger gelegentlich Fehler macht. Laut () erreicht der POS-Tagger für das Deutsche 97,5 % und für das Englische 96,8 % Korrektheit. Da diese Zahlen auf einzelne Token bezogen sind, bedeutet dies trotz der hohen Korrektheit, dass sehr viele Sätze Fehler enthalten.

Für das KoKS-System ist die Fehlerrate niedrig genug. Tag-Sequenzen mit einer Länge von bis zu sechs Token sollten häufig korrekt sein, eine zufällige Verteilung der Fehler vorausgesetzt. Bei einer Translation Memory Anwendung, die auch POS-Tags für das Matching ganzer Sätze nutzt, können die Fehler jedoch Auswirkungen haben. Das wird im Kapitel [*] zu berücksichtigen sein.



Fußnoten

... TreeTagger3.9
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
... unterstützt.3.10
Inzwischen stehen auch angepasste Versionen für Altfranzösisch, Französisch und Italienisch zur Verfügung.
... TagsetPenn-Treebank3.11
http://www.cis.upenn.edu/~treebank/
... Guideline3.12
Auf der TreeTagger Webseite verfügbar, siehe Fußnote [*].
... Tagset3.13
http://www.ims.uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.ps.gz
... werden.3.14
Wenn mehrere Grundformen in Frage kommen, annotiert der IMS TreeTagger eine Liste von Grundformen. Da keine Grundform mehrmals aufgelistet wird, ist auch die Anzahl dieser Grundformlisten, die auch zum Tagset gezählt werden müssen, endlich.
... TreeTaggers.3.15
Zumindest wird von der Möglichkeit, den Parameterraum des Markov Modells zu vergrößern, indem die Grundformen in die Zustände mit aufgenommen werden, und es dann dem Decision Tree Verfahren zu überlassen, den Parameterraum wieder geeignet zu verengen, keinen Gebrauch gemacht. Die entsprechenden bedingten Wahrscheinlichkeiten enthalten nur POS-Tags als Vorbedingung (siehe Formeln in () Seite 2).

next up previous contents index
Nächste Seite: Segmentierung Aufwärts: Vorverarbeitung Vorherige Seite: Tokenisierung   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie