Legge di Zipf

La legge di Zipf è una distribuzione statistica in alcuni insiemi di dati, come le parole in un corpus linguistico, in cui le frequenze di alcune parole sono inversamente proporzionali ai loro ranghi. Prende il nome dal linguista George Kingsley Zipf, che intorno al 1935 fu il primo a richiamare l’attenzione su questo fenomeno, la legge esamina la frequenza delle parole nel linguaggio naturale e come la parola più comune si verifica due volte più spesso della seconda parola più frequente, tre volte più spesso della parola successiva e così via fino alla parola meno frequente. La parola nella posizione n appare 1 / n volte più spesso di quella più frequente.

Quando le parole vengono classificate in base alle loro frequenze in una raccolta di testi abbastanza ampia e quindi la frequenza viene tracciata rispetto al rango, il risultato è una curva logaritmica. (O se si crea un grafico su una scala di log, il risultato è una linea retta.)

La parola più comune in inglese è “the”, che appare circa un decimo del tempo in un testo tipico; la parola successiva più comune (rango 2) è “of”, che appare circa un ventesimo del tempo. In questo tipo di distribuzione, la frequenza diminuisce bruscamente all’aumentare del numero di rango, quindi un piccolo numero di elementi appare molto spesso e un numero elevato si verifica raramente.

Una distribuzione zipfiana delle parole è universale nel linguaggio naturale: può essere trovata nel discorso di bambini di età inferiore a 32 mesi e nel vocabolario specializzato dei libri di testo universitari. Gli studi dimostrano che questo fenomeno si applica anche in quasi tutte le lingue.

Singolarmente, né la sintassi né la semantica sono sufficienti per indurre una distribuzione Zipfian da sola. Tuttavia, sintassi e semantica lavorano insieme per una distribuzione Zipfian.

Solo di recente la legge di Zipf è stata testata rigorosamente su database abbastanza grandi da garantire la validità statistica. I ricercatori del Centre de Recerca Matematica, parte della rete CERCA del Governo della Catalogna, che sono collegati al Dipartimento di Matematica dell’Universitat Autonoma de Barcelona, hanno analizzato la raccolta completa di testi in lingua inglese nel Progetto Gutenberg, un database gratuito con oltre 30.000 opere. Quando le parole più rare sono state lasciate fuori, la legge di Zipf si applicava a più della metà delle parole.

La legge può essere applicata a campi diversi dalla letteratura. Le distribuzioni Zipfian sono state trovate nei ranghi della popolazione delle città in vari paesi, dimensioni delle società, classifiche di reddito e ranghi del numero di persone che guardano lo stesso canale TV.

Related Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *