Zipfs Lov

Zipfs Lov Er en statistisk fordeling i visse datasett, for eksempel ord i et språklig korpus, hvor frekvensene av visse ord er omvendt proporsjonale med deres ranger. Oppkalt Etter lingvisten George Kingsley Zipf, som rundt 1935 var den første til å trekke oppmerksomhet til dette fenomenet, undersøker loven frekvensen av ord i naturlig språk og hvordan det vanligste ordet forekommer dobbelt så ofte som det nest hyppigste ordet, tre ganger så ofte som det påfølgende ordet og så videre til det minst hyppige ordet. Ordet i posisjon n vises 1 / n ganger så ofte som den hyppigste.

når ord er rangert i henhold til deres frekvenser i en stor nok samling av tekster og deretter frekvensen er plottet mot rangen, er resultatet en logaritmisk kurve. (Eller hvis du grafer på en loggskala, er resultatet en rett linje.)

det vanligste ordet på engelsk er «the», som opptrer omtrent en tiendedel av tiden i en typisk tekst; det nest vanligste ordet (rang 2) er «of», som opptrer omtrent en tyvende av tiden. I denne typen distribusjon faller frekvensen kraftig etter hvert som rangnummeret øker, så et lite antall elementer vises veldig ofte, og et stort antall forekommer sjelden.

en Zipfian fordeling av ord er universell i naturlig språk: det kan bli funnet i tale av barn under 32 måneder gammel, samt i spesialiserte vokabular av universitetsbøker. Studier viser at dette fenomenet også gjelder på nesten alle språk.

Individuelt er verken syntaks eller semantikk tilstrekkelig til å indusere En Zipfian-fordeling alene. Syntaks og semantikk fungerer imidlertid sammen for en Zipfian-distribusjon.Bare nylig Har Zipfs Lov blitt testet grundig på databaser som er store nok til å sikre statistisk gyldighet. Forskere ved Centre De Recerca Matematica, en del av REGJERINGEN I Catalonias CERCA-nettverk, som er knyttet Til Universitat Autonoma De Barcelona Institutt For Matematikk, analyserte hele samlingen av engelskspråklige tekster I Project Gutenberg, en gratis database med mer enn 30.000 verk. Når de sjeldneste ordene ble utelatt, gjaldt Zipfs Lov på mer enn halvparten av ordene.

loven kan brukes på andre felt enn litteratur. Zipfian distribusjoner har blitt funnet i befolkningen rekkene av byer i ulike land, corporation størrelser, inntekt rangeringer og rekkene av antall personer som ser på samme TV-kanal.

Related Posts

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *