DB dump

Innerhalb des Volltextes [1] wurden in der Wikipediaversion 20151002 total 445 220 217 Worte und Wortfragmente in total 2 151 335 Artikeln (nur Namensraum 0) identifiziert, wobei 4 786 343 einzigartige Wörter gezählt wurden. Das häufigste Wort ist dabei "der" mit 20 798 318 Vorkommen (4.6715 % aller Wörter), während 2 423 906 Wörter nur ein einziges Mal im ganzen Text vorkommen. Somit kommen gut die Hälfte aller Wörter (50.6 %) nur ein einziges Mal vor im ganzen Text.[2] Insgesamt machen Wörter mit weniger als 25 Vorkommen im Text 92.6081 % aller einzigartigen Wörter aus während die 3921 Wörter die mehr als 10 000 mal vorkommen gut 74.61 % des gesamten Textvolumens ausmachen. Total gibt es nur 23 Wörter welche im Durchschnitt mehr als einmal pro Artikel vorkommen[3]

Der längste Textbaustein im Textkorpus ist [4] ist Ifwhiteamericatoldthetruthforonedayit'sworldwouldfallappart dicht gefolgt von Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch und Schwemmlandhochebewegarbeitswerkzeugaufbewahrungsschuppen und dem ersten "richtigen" deutschen Wort Verkehrsinfrastrukturfinanzierungsgesellschaftsgesetzes.

Gegen eine Liste von 103 923 Falschschreibweisen gesucht, ergibt sich folgende Liste von potentiell falsch geschrieben Wörtern:


Notes Bearbeiten

  1. das heisst innerhalb des Textes der vom Algorithmus analysiert wurde und Dinge wie Templates, Weblinks, Interwikilinks etc ausschliesst
  2. Hier eine Liste von 20 zufälligen Wörtern die nur einmal vorkommen:
    • Tagungswesens
    • Streuobste
    • Sorhouette
    • wïwa
    • Krachaeng
    • Brüderorte
    • B.selbsterzeugte
    • 3,5–12,5
    • Limesübergängen
    • Zwergflamingoei
    • 1543—1617
    • Zaisolf
    • Gabriëls
    • Siauve
    • Überlaufwehren
    • Hutarbeiterbranche
    • Grünlandökologie
    • erftwärts
    • Weltfinanzen
    • Leverwort
  3. die 23 Wörter, welche im Durchschnitt mehr als einmal pro Artikel vorkommen, sind:
    • nach
    • bis
    • aus
    • auch
    • war
    • für
    • sich
    • eine
    • ein
    • auf
    • als
    • Die
    • das
    • dem
    • ist
    • wurde
    • mit
    • des
    • den
    • von
    • die
    • und
    • der
  4. vollständig auf deutsch, ohne Zahlen, Formatierungen etc