La Loi de Zipf est une distribution statistique dans certains ensembles de données, tels que les mots dans un corpus linguistique, dans lesquels les fréquences de certains mots sont inversement proportionnelles à leurs rangs. Nommée en l’honneur du linguiste George Kingsley Zipf, qui, vers 1935, fut le premier à attirer l’attention sur ce phénomène, la loi examine la fréquence des mots dans le langage naturel et la façon dont le mot le plus courant se produit deux fois plus souvent que le deuxième mot le plus fréquent, trois fois plus souvent que le mot suivant et ainsi de suite jusqu’au mot le moins fréquent. Le mot en position n apparaît 1/n fois plus souvent que le plus fréquent.
Lorsque les mots sont classés en fonction de leurs fréquences dans une collection de textes suffisamment grande et que la fréquence est ensuite tracée par rapport au rang, le résultat est une courbe logarithmique. (Ou si vous créez un graphique sur une échelle de journal, le résultat est une ligne droite.)
Le mot le plus courant en anglais est « the », qui apparaît environ un dixième du temps dans un texte typique; le mot le plus courant suivant (rang 2) est « of”, qui apparaît environ un vingtième du temps. Dans ce type de distribution, la fréquence diminue fortement à mesure que le nombre de rangs augmente, de sorte qu’un petit nombre d’éléments apparaissent très souvent et qu’un grand nombre se produit rarement.
Une distribution zipfienne des mots est universelle dans le langage naturel: elle se retrouve dans le discours des enfants de moins de 32 mois ainsi que dans le vocabulaire spécialisé des manuels universitaires. Des études montrent que ce phénomène s’applique également dans presque toutes les langues.
Individuellement, ni la syntaxe ni la sémantique ne suffisent à induire une distribution Zipfienne à elle seule. Cependant, la syntaxe et la sémantique fonctionnent ensemble pour une distribution Zipfienne.
Ce n’est que récemment que la loi de Zipf a été testée rigoureusement sur des bases de données suffisamment grandes pour garantir la validité statistique. Les chercheurs du Centre de Recerca Matematica, qui fait partie du réseau CERCA du gouvernement de Catalogne et qui sont rattachés au Département de mathématiques de l’Université Autonome de Barcelone, ont analysé la collection complète de textes en langue anglaise dans le Projet Gutenberg, une base de données gratuite contenant plus de 30 000 œuvres. Lorsque les mots les plus rares ont été omis, la loi de Zipf s’appliquait à plus de la moitié des mots.
La loi peut s’appliquer à d’autres domaines que la littérature. Les distributions zipfiennes ont été trouvées dans les rangs de population des villes de divers pays, la taille des sociétés, les classements des revenus et les rangs du nombre de personnes regardant la même chaîne de télévision.