Nächste Seite: Frequente Wörter
Aufwärts: Eigenschaften
Vorherige Seite: Eigenschaften
Inhalt
Index
Die Anzahl der Sätze wurde bereits in Tabelle
auf Seite
angegeben.
Die Segmentanzahlen ergeben sich aus den Zeilensummen in der Tabelle
.
Die Summen sind 57599, 101828 und 33377 für die Teilkorpora
,,DE-News``, ,,EU`` und ,,Harry Potter``.
Tabelle:
Anzahl der Zeichen in den verwendeten Korpora
| Korpus |
Deutsch |
Englisch |
Verhältnis |
Ausgangssprache |
| DE-News |
7045756 |
6502884 |
1,08 |
Deustch |
| EU |
24167152 |
21050021 |
1,15 |
unbekannt |
| Harry Potter |
3055845 |
2675042 |
1,14 |
Englisch |
| Gesamt |
34268753 |
30227947 |
1,13 |
-- |
|
Tabelle:
Anzahl der Wörter in den verwendeten Korpora
| Korpus |
Deutsch |
Englisch |
Verhältnis |
Ausgangssprache |
| DE-News |
884130 |
1026389 |
0,86 |
Deustch |
| EU |
2992002 |
3166040 |
0,95 |
unbekannt |
| Harry Potter |
475189 |
464690 |
1,02 |
Englisch |
| Gesamt |
4351321 |
4657119 |
0,93 |
-- |
|
Tabelle:
Anzahl der Token in den verwendeten Korpora
| Korpus |
Deutsch |
Englisch |
Verhältnis |
Ausgangssprache |
| DE-News |
961104 |
1119728 |
0,86 |
Deustch |
| EU |
3309335 |
3493419 |
0,95 |
unbekannt |
| Harry Potter |
588905 |
584117 |
1,01 |
Englisch |
| Gesamt |
4859344 |
5197264 |
0,93 |
-- |
|
Tabellen
bis
zeigen analog
die Anzahl der Zeichen, Wörter3.37
und Token.
Zeichen und Wörter wurden
in den aufbereiten, aber noch nicht tokenisierten Dateien gezählt.
Die Zahlen können nicht mit der in der Datenbank vorliegenden
Token- und Satzanzahl gleichgesetzt werden, da manche Dokumente
nicht vom Aligner verarbeitet werden konnten.3.38Beim EU-Korpus sind etwa 1,5% der Dateien betroffen, bei den DE-News
nur 0,3%.
Das Harry-Potter-Korpus konnte vollständig verarbeitet werden.
Fußnoten
- ... Wörter3.37
-
Shell-Kommando wc -wc
- ... konnten.3.38
-
Die eingangs genannten Segmentanzahlen können sich nur auf
die vollständig verarbeiteten Dokumente beziehen, da Segmente
erst im letzten Verarbeitungsschritt, dem Alignment,
gebildet werden.i
Nächste Seite: Frequente Wörter
Aufwärts: Eigenschaften
Vorherige Seite: Eigenschaften
Inhalt
Index
JWaGnER@CoMpUtING.Dcu.Ie