De Wet van Zipf is een statistische verdeling in bepaalde datasets, zoals woorden in een linguïstisch corpus, waarin de frequenties van bepaalde woorden omgekeerd evenredig zijn met hun rangen. De wet is vernoemd naar de taalkundige George Kingsley Zipf, die rond 1935 de eerste was die de aandacht vestigde op dit fenomeen.de wet onderzoekt de frequentie van woorden in natuurlijke taal en hoe het meest voorkomende woord twee keer zo vaak voorkomt als het tweede meest voorkomende woord, drie keer zo vaak als het volgende woord enzovoort tot het minst voorkomende woord. Het woord in de positie n verschijnt 1/n keer zo vaak als het meest voorkomende.
wanneer woorden worden gerangschikt volgens hun frequenties in een voldoende grote verzameling teksten en vervolgens de frequentie wordt uitgezet tegen de rang, is het resultaat een logaritmische curve. (Of als je grafiek op een log schaal, het resultaat is een rechte lijn.)
het meest voorkomende woord in het Engels is “De”, dat ongeveer een tiende van de tijd voorkomt in een typische tekst; het volgende meest voorkomende woord (rang 2) is “of”, dat ongeveer een twintigste van de tijd voorkomt. In dit type distributie neemt de frequentie sterk af naarmate het rangnummer toeneemt, dus een klein aantal items verschijnt heel vaak en een groot aantal treedt zelden op.
een Zipfische verdeling van woorden is universeel in natuurlijke taal: het kan worden gevonden in de spraak van kinderen jonger dan 32 maanden oud en in de gespecialiseerde woordenschat van universitaire studieboeken. Studies tonen aan dat dit fenomeen ook in bijna elke taal van toepassing is.
afzonderlijk is syntaxis noch semantiek voldoende om een Zipfian distributie op zichzelf te induceren. Syntaxis en semantiek werken echter samen voor een Zipfian distributie.
pas onlangs is de wet van Zipf grondig getest op databases die groot genoeg zijn om statistische validiteit te garanderen. Onderzoekers van het Centre de Recerca Matematica, onderdeel van het CERCA-netwerk van de regering van Catalonië, die verbonden zijn aan de Universitat Autonoma de Barcelona Departement van wiskunde, analyseerden de volledige verzameling Engelstalige teksten in het Project Gutenberg, een gratis database met meer dan 30.000 werken. Toen de zeldzaamste woorden werden weggelaten, was de wet van Zipf van toepassing op meer dan de helft van de woorden.
de wet kan worden toegepast op andere gebieden dan literatuur. Zipfian distributies zijn gevonden in de bevolking gelederen van steden in verschillende landen, corporatie maten, inkomen rankings en rangen van het aantal mensen kijken naar hetzelfde TV-kanaal.