Zipf’sches Gesetz

Das Zipf’sche Gesetz ist eine statistische Verteilung in bestimmten Datensätzen, wie z. B. Wörtern in einem linguistischen Korpus, in der die Häufigkeiten bestimmter Wörter umgekehrt proportional zu ihren Rängen sind. Benannt nach dem Linguisten George Kingsley Zipf, der um 1935 als erster auf dieses Phänomen aufmerksam machte, untersucht das Gesetz die Häufigkeit von Wörtern in natürlicher Sprache und wie das häufigste Wort doppelt so häufig vorkommt wie das zweithäufigste Wort, dreimal so oft wie das nachfolgende Wort und so weiter bis zum am wenigsten häufigen Wort. Das Wort in der Position n erscheint 1 / n mal so oft wie das häufigste.

Wenn Wörter nach ihrer Häufigkeit in einer ausreichend großen Sammlung von Texten eingestuft werden und dann die Häufigkeit gegen den Rang aufgetragen wird, ist das Ergebnis eine logarithmische Kurve. (Oder wenn Sie auf einer logarithmischen Skala zeichnen, ist das Ergebnis eine gerade Linie.)

Das häufigste Wort im Englischen ist „the“, das etwa ein Zehntel der Zeit in einem typischen Text vorkommt; das nächsthäufigste Wort (Rang 2) ist „of“, das etwa ein Zwanzigstel der Zeit vorkommt. Bei dieser Art der Verteilung nimmt die Häufigkeit mit zunehmender Rangzahl stark ab, sodass eine kleine Anzahl von Elementen sehr häufig und eine große Anzahl selten auftritt.

Eine zipfsche Wortverteilung ist in der natürlichen Sprache universell: Sie findet sich in der Sprache von Kindern unter 32 Monaten sowie im Fachvokabular von Universitätslehrbüchern. Studien zeigen, dass dieses Phänomen auch in fast jeder Sprache zutrifft.

Individuell ist weder Syntax noch Semantik ausreichend, um eine Zipfsche Verteilung allein zu induzieren. Syntax und Semantik arbeiten jedoch für eine Zipfsche Verteilung zusammen.

Erst kürzlich wurde das Zipf-Gesetz rigoros an Datenbanken getestet, die groß genug sind, um die statistische Validität sicherzustellen. Forscher des Centre de Recerca Matematica, Teil des CERCA-Netzwerks der katalanischen Regierung, die dem Mathematischen Institut der Universitat Autonoma de Barcelona angeschlossen sind, analysierten die gesamte Sammlung englischsprachiger Texte im Projekt Gutenberg, einer kostenlosen Datenbank mit mehr als 30.000 Werken. Wenn die seltensten Wörter weggelassen wurden, galt Zipfs Gesetz für mehr als die Hälfte der Wörter.

Das Gesetz kann auf andere Bereiche als die Literatur angewendet werden. Zipfian-Verteilungen wurden in den Bevölkerungsreihen von Städten in verschiedenen Ländern, Unternehmensgrößen, Einkommensrankings und Rängen der Anzahl der Personen gefunden, die denselben Fernsehsender sehen.

Related Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.