Legea lui Zipf

Legea lui Zipf este o distribuție statistică în anumite seturi de date, cum ar fi cuvintele dintr-un corpus lingvistic, în care frecvențele anumitor cuvinte sunt invers proporționale cu rândurile lor. Numit după lingvistul George Kingsley Zipf, care în jurul anului 1935 a fost primul care a atras atenția asupra acestui fenomen, legea examinează frecvența cuvintelor în limbajul natural și modul în care cel mai frecvent cuvânt apare de două ori mai des decât al doilea cuvânt cel mai frecvent, de trei ori mai des decât cuvântul ulterior și așa mai departe până la cel mai puțin frecvent cuvânt. Cuvântul din poziția n apare de 1 / n ori mai des decât cel mai frecvent.

când cuvintele sunt clasificate în funcție de frecvențele lor într-o colecție suficient de mare de texte și apoi frecvența este reprezentată grafic împotriva rangului, rezultatul este o curbă logaritmică. (Sau dacă grafic pe o scară jurnal, rezultatul este o linie dreaptă.)

cel mai frecvent cuvânt în limba engleză este „the”, care apare aproximativ o zecime din timp într-un text tipic; următorul cuvânt cel mai frecvent (rangul 2) este „of”, care apare aproximativ o douăzecime din timp. În acest tip de distribuție, frecvența scade brusc pe măsură ce numărul de rang crește, astfel încât un număr mic de articole apar foarte des și un număr mare apare rar.

o distribuție Zipfiană a cuvintelor este universală în limbajul natural: poate fi găsită în vorbirea copiilor cu vârsta mai mică de 32 de luni, precum și în vocabularul specializat al manualelor universitare. Studiile arată că acest fenomen se aplică și în aproape toate limbile.

individual, nici sintaxa, nici semantica nu sunt suficiente pentru a induce o distribuție Zipfiană pe cont propriu. Cu toate acestea, sintaxa și semantica lucrează împreună pentru o distribuție Zipfiană.abia recent Legea Zipf a fost testată riguros pe baze de date suficient de mari pentru a asigura validitatea statistică. Cercetătorii de la Centre de Recerca Matematica, parte a rețelei CERCA a Guvernului Cataloniei, care sunt atașați la Departamentul de Matematică al Universitat Autonoma de Barcelona, au analizat colecția completă de texte în limba engleză din Proiectul Gutenberg, o bază de date gratuită cu peste 30.000 de lucrări. Când cele mai rare cuvinte au fost lăsate deoparte, Legea lui Zipf s-a aplicat la mai mult de jumătate din cuvinte.legea poate fi aplicată în alte domenii decât literatura. Distribuțiile Zipfian au fost găsite în rândurile populației orașelor din diferite țări, dimensiunile corporațiilor, clasamentele veniturilor și rândurile numărului de persoane care urmăresc același canal TV.

Related Posts

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *