Sipfs lov er en statistisk fordeling i visse datasæt, såsom ord i et sprogligt korpus, hvor frekvenserne af visse ord er omvendt proportionale med deres rækker. Opkaldt efter lingvist George Kingsley Sipf, der omkring 1935 var den første til at henlede opmærksomheden på dette fænomen, undersøger loven hyppigheden af ord på naturligt sprog, og hvordan det mest almindelige ord forekommer dobbelt så ofte som det næsthyppigste ord, tre gange så ofte som det efterfølgende ord og så videre indtil det mindst hyppige ord. Ordet i positionen n vises 1/n gange så ofte som den hyppigste.
Når ord rangeres efter deres frekvenser i en stor nok samling af tekster, og derefter afbildes frekvensen mod rang, er resultatet en logaritmisk kurve. (Eller hvis du tegner på en logskala, er resultatet en lige linje.)
det mest almindelige ord på engelsk er “The”, som vises omkring en tiendedel af tiden i en typisk tekst; det næste mest almindelige ord (rang 2) er “OF”, som vises omkring en tyvendedel af tiden. I denne type distribution falder frekvensen kraftigt, når rangnummeret stiger, så et lille antal genstande vises meget ofte, og et stort antal forekommer sjældent.fordeling af ord er universel i naturligt sprog: det kan findes i tale af børn under 32 måneder gamle såvel som i det specialiserede ordforråd af universitetsbøger. Undersøgelser viser, at dette fænomen også gælder på næsten alle sprog.
individuelt er hverken syntaks eller semantik tilstrækkelig til at inducere en Sipfian fordeling alene. Syntaks og semantik arbejder imidlertid sammen om en distribution af Sipfian.
først for nylig er Sipf ‘ s Lov blevet testet grundigt på databaser, der er store nok til at sikre statistisk gyldighed. Forskere ved Center de Recerca Matematica, en del af regeringen i Cataloniens CERCA-netværk, der er knyttet til Universitat Autonoma de Barcelona Institut for Matematik, analyserede den fulde samling af engelsksprogede tekster i projektet Gutenberg, en gratis database med mere end 30.000 værker. Da de sjældneste ord blev udeladt, gjaldt Sipfs lov for mere end halvdelen af ordene.
loven kan anvendes på andre områder end litteratur. Der er fundet distributioner i befolkningsrækkerne i byer i forskellige lande, selskabsstørrelser, indkomstrangeringer og rækker for antallet af mennesker, der ser den samme TV-kanal.