ZIPFS lag är en statistisk fördelning i vissa datamängder, såsom ord i en språklig korpus, där frekvenserna för vissa ord är omvänt proportionella mot deras led. Uppkallad efter lingvist George Kingsley Zipf, som omkring 1935 var den första som uppmärksammade detta fenomen, undersöker lagen frekvensen av ord på naturligt språk och hur det vanligaste ordet förekommer dubbelt så ofta som det näst vanligaste ordet, tre gånger så ofta som det efterföljande ordet och så vidare tills det minst frekventa ordet. Ordet i positionen n visas 1 / n gånger så ofta som den vanligaste.
När ord rankas efter deras frekvenser i en tillräckligt stor samling texter och sedan frekvensen ritas mot rang, är resultatet en logaritmisk kurva. (Eller om du grafer på en loggskala är resultatet en rak linje.)
det vanligaste ordet på engelska är ”the”, som visas ungefär en tiondel av tiden i en typisk text; det näst vanligaste ordet (rang 2) är ”of”, som visas ungefär en tjugonde av tiden. I denna typ av distribution minskar frekvensen kraftigt när ranknumret ökar, så ett litet antal objekt visas mycket ofta och ett stort antal förekommer sällan.
en Zipfian fördelning av ord är universell på naturligt språk: det finns i talet för barn under 32 månader och i specialordförrådet för universitetshandböcker. Studier visar att detta fenomen också gäller på nästan alla språk.
individuellt är varken syntax eller semantik tillräcklig för att inducera en Zipfian-distribution på egen hand. Syntax och semantik arbetar dock tillsammans för en Zipfian-distribution.
först nyligen har Zipf: s lag testats noggrant på databaser som är tillräckligt stora för att säkerställa statistisk giltighet. Forskare vid Centre de Recerca Matematica, en del av Kataloniens CERCA-nätverk, som är knutna till Universitat Autonoma de Barcelona Institutionen för matematik, analyserade hela samlingen av engelskspråkiga texter i projektet Gutenberg, en gratis databas med mer än 30 000 verk. När de sällsynta orden utelämnades tillämpades ZIPFS lag på mer än hälften av orden.
lagen kan tillämpas på andra områden än litteratur. Zipfian-distributioner har hittats i befolkningen i städer i olika länder, företagsstorlekar, inkomstrankningar och rankningar av antalet personer som tittar på samma TV-kanal.