Die Häufigkeiten, mit denen Wörter im Korpus auftreten, geben einen Anhaltspunkt, welche Themen oder Themenfelder dominieren. Eine kurze Liste der häufigsten Wörter reicht hierzu aber nicht aus. In den höchsten Rängen stehen fast ausschließlich Artikel, Präpositionen und Satzzeichen. Beispielsweise steht das Token ,,der``, das 174292 mal im Korpus auftritt, auf Rang drei hinter den Satzzeichen Komma und Punkt.
zeigt die häufigsten Token, die als
gewöhnliches Nomen3.39getaggt wurden.
Die Liste bestätigt, dass das Korpus hauptsächlich aus EU-Dokumenten
besteht, die den politischen Rahmen der wirtschaftlichen Zusammenarbeit
beschreiben.
In der Rangliste der Eigennamen, die hier nicht abgebildet ist,
steht der Name ,,Harry`` auf dem ersten Rang vor ,,ECU``.
Dies zeigt, dass auch kleine Teilkorpora einen Einfluss auf das
Gesamtkorpus haben können, wenn sie ungewöhnliche Merkmale aufweisen.
Hier wurden die Häufigkeiten der Token ermittelt.
Flektierte Formen und Großschreibungen am Satzanfang werden dadurch
als eigenes Wort aufgeführt.
Will man die verschiedenen Formen eines Wortes zusammenfassen, dann
müssen statt der Token die zugehörigen Grundformen ausgezählt werden.
Hierbei können aber Wörter nicht berücksichtigt werden, die der
Lemmatisierer nicht kennt.
Auf eine Darstellung dieser Häufigkeiten wird hier verzichtet, da hier
nur ein grober Eindruck zur Unausgewogenheit des Korpus vermittelt
werden soll.
Dazu sollte Tabelle
reichen.3.40