A Zipf törvénye

A Zipf törvénye statisztikai Eloszlás bizonyos adatkészletekben, például a nyelvi korpuszban lévő szavakban, amelyekben bizonyos szavak frekvenciája fordítottan arányos a soraikkal. George Kingsley Zipf nyelvésznek nevezték el, aki 1935 körül volt az első, aki felhívta a figyelmet erre a jelenségre, a törvény megvizsgálja a természetes nyelvű szavak gyakoriságát, és hogy a leggyakoribb szó kétszer olyan gyakran fordul elő, mint a második leggyakoribb szó, háromszor olyan gyakran, mint a későbbi szó, és így tovább a legkevésbé gyakori szóig. Az n pozícióban lévő szó 1/n-szer olyan gyakran jelenik meg, mint a leggyakoribb.

amikor a szavakat frekvenciájuk szerint rangsorolják egy elég nagy szöveggyűjteményben, majd a frekvenciát a rang ellen ábrázolják, az eredmény logaritmikus görbe. (Vagy ha grafikont egy log skála, az eredmény egy egyenes vonal.)

az angolban a leggyakoribb szó az “a”, amely egy tipikus szövegben az idő körülbelül egytizedében jelenik meg; a következő leggyakoribb szó (2.helyezés) Az “of”, amely az idő körülbelül egytizedén jelenik meg. Az ilyen típusú eloszlásban a gyakoriság élesen csökken, mivel a rangszám növekszik, így nagyon sok elem jelenik meg nagyon gyakran, nagy szám ritkán fordul elő.

a szavak Zipfiai eloszlása természetes nyelven univerzális: megtalálható a 32 hónaposnál fiatalabb gyermekek beszédében, valamint az egyetemi tankönyvek speciális szókincsében. Tanulmányok azt mutatják, hogy ez a jelenség szinte minden nyelven is érvényes.

egyénileg, sem a szintaxis, sem a szemantika nem elegendő ahhoz, hogy önmagában zipfian eloszlást indukáljon. Azonban a szintaxis és a szemantika együtt dolgoznak egy Zipfian disztribúció.

csak a közelmúltban tesztelték szigorúan A Zipf törvényét olyan adatbázisokon, amelyek elég nagyok ahhoz, hogy biztosítsák a statisztikai érvényességet. A kutatók a Centre de Recerca Matematica, része a Kormány Katalónia van CERCA hálózat, aki csatolták a várnai mónika Autonoma de Barcelona Matematika Tanszék, elemezte a teljes gyűjtemény angol nyelvű szövegek a Project Gutenberg, egy ingyenes adatbázis több, mint 30.000 működik. Amikor a legritkább szavakat kihagyták, A Zipf törvénye a szavak több mint felére vonatkozott.

a törvény az irodalomtól eltérő területekre is alkalmazható. Zipfian disztribúciók találtak a lakosság soraiban a városok különböző országokban, vállalat méretű, jövedelem rangsor és soraiban az emberek száma nézi ugyanazt a TV-csatornát.

Related Posts

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük