next up previous contents index
Nächste Seite: Alignment Aufwärts: Eigenschaften Vorherige Seite: Größe   Inhalt   Index

Frequente Wörter

Die Häufigkeiten, mit denen Wörter im Korpus auftreten, geben einen Anhaltspunkt, welche Themen oder Themenfelder dominieren. Eine kurze Liste der häufigsten Wörter reicht hierzu aber nicht aus. In den höchsten Rängen stehen fast ausschließlich Artikel, Präpositionen und Satzzeichen. Beispielsweise steht das Token ,,der``, das 174292 mal im Korpus auftritt, auf Rang drei hinter den Satzzeichen Komma und Punkt.


Tabelle: Häufige Token mit POS-Tags 'NN' und 'NNS'
Deutsch Englisch
   
Häufigkeit Token
25485 Kommission
10410 %
7950 Gemeinschaft
7184 Unternehmen
6558 Mitgliedstaaten
5904 Maßnahmen
5721 Entwicklung
4977 Rahmen
4562 Jahr
3383 Programm
3293 Zusammenarbeit
3120 Hilfe
Häufigkeit Token
10981 %
9784 aid
8404 market
6925 something
6430 programme
5959 development
5498 time
5425 countries
5421 year
5119 measures
4900 somebody
4547 policy


Inhaltstragend sind Wörter offener Wortklassen. Tabelle [*] zeigt die häufigsten Token, die als gewöhnliches Nomen3.39getaggt wurden. Die Liste bestätigt, dass das Korpus hauptsächlich aus EU-Dokumenten besteht, die den politischen Rahmen der wirtschaftlichen Zusammenarbeit beschreiben. In der Rangliste der Eigennamen, die hier nicht abgebildet ist, steht der Name ,,Harry`` auf dem ersten Rang vor ,,ECU``. Dies zeigt, dass auch kleine Teilkorpora einen Einfluss auf das Gesamtkorpus haben können, wenn sie ungewöhnliche Merkmale aufweisen.

Hier wurden die Häufigkeiten der Token ermittelt. Flektierte Formen und Großschreibungen am Satzanfang werden dadurch als eigenes Wort aufgeführt. Will man die verschiedenen Formen eines Wortes zusammenfassen, dann müssen statt der Token die zugehörigen Grundformen ausgezählt werden. Hierbei können aber Wörter nicht berücksichtigt werden, die der Lemmatisierer nicht kennt. Auf eine Darstellung dieser Häufigkeiten wird hier verzichtet, da hier nur ein grober Eindruck zur Unausgewogenheit des Korpus vermittelt werden soll. Dazu sollte Tabelle [*] reichen.3.40



Fußnoten

... Nomen3.39
IMS Tagset und Penn-Treebank Tagset unterscheiden zwischen Eigennamen und allen anderen, ,,normalen`` Nomen. Das Penn-Treebank Tagset enthält zusätzlich Nomen-Tags mit dem Suffix ,,S``, die verwendet werden, um im Plural stehende Nomen zu kennzeichnen.
... reichen.3.40
Die jeweils tausend häufigsten Token, Lemmata und POS-Tags stehen im Quellcode des Moduls DatabaseAPI/haeufigkeit.py.

next up previous contents index
Nächste Seite: Alignment Aufwärts: Eigenschaften Vorherige Seite: Größe   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie