Zipf: n laki

Zipf: n laki on tilastollinen jakauma tietyissä tietojoukoissa, kuten kielellisen korpuksen sanoissa, joissa tiettyjen sanojen frekvenssi on kääntäen verrannollinen niiden joukkoon. Nimetty kielitieteilijä George Kingsley Zipf, joka noin 1935 oli ensimmäinen kiinnittää huomiota tähän ilmiöön, laki tutkii frekvenssi sanoja luonnollisessa kielessä ja miten yleisin sana esiintyy kaksi kertaa niin usein kuin toiseksi yleisin sana, kolme kertaa niin usein kuin seuraava sana ja niin edelleen, kunnes vähiten usein sana. Asemassa n oleva sana esiintyy 1/n kertaa useammin kuin yleisin.

kun riittävän laajassa tekstikokoelmassa sanat asetetaan järjestykseen niiden frekvenssien mukaan ja sen jälkeen frekvenssi piirretään rankkaa vasten, tuloksena on logaritminen käyrä. (Tai jos kuvaat log-asteikolla, tuloksena on suora viiva.)

yleisin englannin kielen sana on ”the”, joka esiintyy tyypillisessä tekstissä noin kymmenesosan ajasta; seuraavaksi yleisin sana (sijoitus 2) ON ”of”, joka esiintyy noin kahdeskymmenesosa ajasta. Tämän tyyppisessä jakelussa frekvenssi laskee jyrkästi sijoitusluvun kasvaessa, joten pieni määrä kohteita esiintyy hyvin usein ja suuri määrä harvoin.

Zipfiaaninen sanajakauma on luonnollisessa kielessä yleinen: se löytyy alle 32 kuukauden ikäisten lasten puheesta sekä yliopistojen oppikirjojen erikoissanastosta. Tutkimukset osoittavat, että tämä ilmiö pätee myös lähes kaikilla kielillä.

yksittäin syntaksi tai semantiikka ei riitä indusoimaan Zipfi-jakaumaa yksinään. Syntaksi ja semantiikka toimivat kuitenkin yhdessä Zipfi-jakaumassa.

vasta viime aikoina Zipf: n lakia on testattu tiukasti riittävän suurissa tietokannoissa tilastollisen pätevyyden varmistamiseksi. Universitat Autonoma de Barcelonan matematiikan laitokseen liitetyt Centre de Recerca Matematican tutkijat analysoivat koko englanninkielisten tekstien kokoelman Gutenberg-projektissa, joka on ilmainen tietokanta, jossa on yli 30 000 teosta. Kun harvinaisimmat sanat jätettiin pois, Zipfin laki koski yli puolta sanoista.

lakia voidaan soveltaa muillekin aloille kuin kirjallisuuteen. Zipfian-jakaumia on löytynyt eri maiden kaupunkien väestöasteista, yrityskooista, tulorankingeista ja saman televisiokanavan katsojamäärien riveistä.

Related Posts

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *