prawo Zipfa jest rozkładem statystycznym w niektórych zestawach danych, takich jak słowa w korpusie językowym, w którym częstotliwości niektórych słów są odwrotnie proporcjonalne do ich szeregów. Nazwany na cześć językoznawcy George ’ a Kingsleya Zipfa, który około 1935 roku jako pierwszy zwrócił uwagę na to zjawisko, prawo bada częstotliwość słów w języku naturalnym i to, jak najczęstsze słowo występuje dwa razy częściej niż drugie najczęstsze słowo, trzy razy częściej niż kolejne słowo i tak dalej, aż do najmniej częstego słowa. Słowo w pozycji n pojawia się 1 / N razy częściej niż najczęściej.
gdy słowa są uszeregowane według ich częstotliwości w wystarczająco dużym zbiorze tekstów, a następnie częstotliwość jest wykreślana w stosunku do rangi, wynikiem jest krzywa logarytmiczna. (Lub jeśli wykresujesz na skali logarytmu, wynikiem jest linia prosta.)
najczęstszym słowem w języku angielskim jest „the”, które pojawia się około jednej dziesiątej czasu w typowym tekście; następnym najczęściej używanym słowem (ranga 2) jest „of”, które pojawia się około jednej dwudziestej czasu. W tego typu dystrybucji częstotliwość gwałtownie spada wraz ze wzrostem liczby Rang, więc niewielka liczba przedmiotów pojawia się bardzo często, a duża liczba rzadko występuje.
uniwersalny jest podział wyrazów w języku naturalnym: można go znaleźć w mowie dzieci poniżej 32 miesiąca życia, a także w słownictwie specjalistycznym podręczników uniwersyteckich. Badania pokazują, że zjawisko to występuje również w prawie każdym języku.
indywidualnie, ani składnia, ani semantyka nie wystarczają do samodzielnego wywołania rozkładu Zipfiana. Jednak składnia i semantyka współpracują ze sobą w dystrybucji Zipfian.
dopiero niedawno prawo Zipf zostało rygorystycznie przetestowane na bazach danych wystarczająco dużych, aby zapewnić statystyczną poprawność. Badacze z Centre de Recerca Matematica, część sieci cerca rządu Katalonii, którzy są przyłączeni do Wydziału Matematyki Universitat Autonoma de Barcelona, przeanalizowali pełny zbiór tekstów w języku angielskim w projekcie Gutenberg, bezpłatnej bazie danych z ponad 30 000 prac. Kiedy pomijano najrzadsze słowa, Prawo Zipfa stosowało się do ponad połowy słów.
prawo można stosować do dziedzin innych niż literatura. Zipfian dystrybucje zostały znalezione w rankingach populacji miast w różnych krajach, wielkości korporacji, rankingu dochodów i Rang liczby osób oglądających ten sam kanał telewizyjny.