Je Sprache (Deutsch und Englisch) wurden mindestens 250 Segmente ausgewählt. Es wurde darauf verzichtet, die Auswahl durch einen (Pseudo-) Zufallsprozess zu steuern. Stattdessen wurden Segmente ausgewählt, deren Segment-Nummer sich ohne Rest durch eine zuvor bestimmte Zahl teilen läßt. Da zusätzlich die Länge der Sätze auf 12 bis 60 Wörter eingeschränkt wurde und da die fortlaufende Nummerierung der Korpussegmente zwischen den Dokumenten durch die Segmente der parallelen Sprache unterbrochen wird, kann die Zahl der ausgewählten Segmente nur ungenau mit dem Teiler gesteuert werden. Solange weniger als die gewünschten 250 Segmente in der Stichprobe enthalten sind, wird für die verbleibende Anzahl ein neuer Teiler bestimmt und der Auswahlprozess wiederholt. Eine zu große Auswahl wurde nicht reduziert, da dies unnötig erschien.3.41Auf diese Weise wurden 250 Segmente im Deutschen Korpusteil und 260 Segmente im Englischen Korpusteil als Stichprobe bestimmt.
In Folgendem wird wie schon in anderen Abschnitten vereinfachend von Sätzen der Stichprobe gesprochen, obwohl Segmente mehr als einen Satz enthalten können.