Ley de Zipf

La Ley de Zipf es una distribución estadística en ciertos conjuntos de datos, como las palabras en un corpus lingüístico, en el que las frecuencias de ciertas palabras son inversamente proporcionales a sus rangos. Llamada así por el lingüista George Kingsley Zipf, que alrededor de 1935 fue el primero en llamar la atención sobre este fenómeno, la ley examina la frecuencia de las palabras en el lenguaje natural y cómo la palabra más común ocurre dos veces más a menudo que la segunda palabra más frecuente, tres veces más a menudo que la palabra posterior, y así sucesivamente hasta la palabra menos frecuente. La palabra en la posición n aparece 1/n veces más a menudo que la más frecuente.

Cuando las palabras se clasifican de acuerdo con sus frecuencias en una colección de textos lo suficientemente grande y luego la frecuencia se traza contra el rango, el resultado es una curva logarítmica. (O si graficas en una escala logarítmica, el resultado es una línea recta.)

La palabra más común en inglés es «the», que aparece aproximadamente una décima parte de las veces en un texto típico; la siguiente palabra más común (rango 2) es «of», que aparece aproximadamente una vigésima parte de las veces. En este tipo de distribución, la frecuencia disminuye bruscamente a medida que aumenta el número de rangos, por lo que un pequeño número de elementos aparecen muy a menudo, y un gran número rara vez ocurre.

La distribución de palabras en Zipf es universal en el lenguaje natural: se puede encontrar en el habla de niños menores de 32 meses, así como en el vocabulario especializado de los libros de texto universitarios. Los estudios demuestran que este fenómeno también se aplica en casi todos los idiomas.

Individualmente, ni la sintaxis ni la semántica son suficientes para inducir una distribución Zipfiana por sí sola. Sin embargo, la sintaxis y la semántica trabajan juntas para una distribución Zipfiana.

La Ley de Zipf se ha probado rigurosamente en bases de datos lo suficientemente grandes como para garantizar la validez estadística. Investigadores del Centre de Recerca Matematica, perteneciente a la red CERCA de la Generalitat de Catalunya, adscrito al Departamento de Matemáticas de la Universitat Autonoma de Barcelona, analizaron la colección completa de textos en inglés del Proyecto Gutenberg, una base de datos gratuita con más de 30.000 obras. Cuando se omitieron las palabras más raras, la Ley de Zipf se aplicaba a más de la mitad de las palabras.

La ley se puede aplicar a campos distintos de la literatura. Se han encontrado distribuciones zipfianas en los rangos de población de ciudades de varios países, tamaños de corporaciones, clasificaciones de ingresos y rangos del número de personas que ven el mismo canal de televisión.

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *