next up previous contents index
Nächste Seite: Frequente Wörter Aufwärts: Eigenschaften Vorherige Seite: Eigenschaften   Inhalt   Index

Größe

Die Anzahl der Sätze wurde bereits in Tabelle [*] auf Seite [*] angegeben. Die Segmentanzahlen ergeben sich aus den Zeilensummen in der Tabelle [*]. Die Summen sind 57599, 101828 und 33377 für die Teilkorpora ,,DE-News``, ,,EU`` und ,,Harry Potter``.


Tabelle: Anzahl der Zeichen in den verwendeten Korpora
Korpus Deutsch Englisch Verhältnis Ausgangssprache
DE-News 7045756 6502884 1,08 Deustch
EU 24167152 21050021 1,15 unbekannt
Harry Potter 3055845 2675042 1,14 Englisch
Gesamt 34268753 30227947 1,13 --



Tabelle: Anzahl der Wörter in den verwendeten Korpora
Korpus Deutsch Englisch Verhältnis Ausgangssprache
DE-News 884130 1026389 0,86 Deustch
EU 2992002 3166040 0,95 unbekannt
Harry Potter 475189 464690 1,02 Englisch
Gesamt 4351321 4657119 0,93 --



Tabelle: Anzahl der Token in den verwendeten Korpora
Korpus Deutsch Englisch Verhältnis Ausgangssprache
DE-News 961104 1119728 0,86 Deustch
EU 3309335 3493419 0,95 unbekannt
Harry Potter 588905 584117 1,01 Englisch
Gesamt 4859344 5197264 0,93 --


Tabellen [*] bis [*] zeigen analog die Anzahl der Zeichen, Wörter3.37 und Token. Zeichen und Wörter wurden in den aufbereiten, aber noch nicht tokenisierten Dateien gezählt. Die Zahlen können nicht mit der in der Datenbank vorliegenden Token- und Satzanzahl gleichgesetzt werden, da manche Dokumente nicht vom Aligner verarbeitet werden konnten.3.38Beim EU-Korpus sind etwa 1,5% der Dateien betroffen, bei den DE-News nur 0,3%. Das Harry-Potter-Korpus konnte vollständig verarbeitet werden.



Fußnoten

... Wörter3.37
Shell-Kommando wc -wc
... konnten.3.38
Die eingangs genannten Segmentanzahlen können sich nur auf die vollständig verarbeiteten Dokumente beziehen, da Segmente erst im letzten Verarbeitungsschritt, dem Alignment, gebildet werden.i

next up previous contents index
Nächste Seite: Frequente Wörter Aufwärts: Eigenschaften Vorherige Seite: Eigenschaften   Inhalt   Index
JWaGnER@CoMpUtING.Dcu.Ie