Curador: Cesare Magri
Ludovico Carraro
Eugene M. Izhikevich
Stefano Panzeri
Nick Orbeck
El sesgo de muestreo significa que las muestras de una variable estocástica que se recogen para determinar su distribución se seleccionan incorrectamente y no representan la distribución verdadera debido a razones no aleatorias. Consideremos un ejemplo específico: queremos predecir el resultado de una elección presidencial, por medio de una encuesta de opinión. Preguntar a 1000 votantes sobre sus intenciones de voto puede dar una predicción bastante precisa del probable ganador, pero solo si nuestra muestra de 1000 votantes es «representativa» del electorado en su conjunto (es decir, imparcial). Si solo encuestamos la opinión de 1000 estudiantes universitarios blancos de clase media, es probable que las opiniones de muchas partes importantes del electorado en su conjunto (minorías étnicas, personas mayores, trabajadores manuales) estén subrepresentadas en la muestra, y nuestra capacidad para predecir el resultado de las elecciones a partir de esa muestra se reduzca.
En una muestra imparcial, las diferencias entre las muestras tomadas de una variable aleatoria y su distribución verdadera, o las diferencias entre las muestras de unidades de una población y toda la población que representan, deben resultar solo del azar. Si sus diferencias no se deben solo al azar, entonces hay un sesgo de muestreo. El sesgo de muestreo a menudo surge porque ciertos valores de la variable están sistemáticamente subrepresentados o sobrerrepresentados con respecto a la distribución verdadera de la variable (como en nuestro ejemplo de encuesta de opinión anterior). Debido a su naturaleza consistente, el sesgo de muestreo conduce a una distorsión sistemática de la estimación de la distribución de probabilidad muestreada. Esta distorsión no puede eliminarse aumentando el número de muestras de datos y debe corregirse mediante técnicas apropiadas, algunas de las cuales se examinan a continuación. En otras palabras, encuestar a 1000 estudiantes universitarios blancos adicionales no mejorará el poder predictivo de nuestra encuesta de opinión, pero encuestar a 1000 personas elegidas al azar del registro electoral sí lo haría. Obviamente, una muestra sesgada puede causar problemas en la medida de los funcionales de probabilidad (p. ej., la varianza o la entropía de la distribución), ya que cualquier estadística calculada a partir de esa muestra tiene el potencial de ser sistemáticamente errónea.
- Contenido
- Causas del sesgo de muestreo
- Corrección y reducción del sesgo de muestreo
- Sesgo de muestreo, error de muestreo, sesgo de función de probabilidad y sesgo de muestreo limitado
- El efecto del muestreo limitado en la determinación de las relaciones estadísticas y causales
- Sesgo de muestreo en neurociencia
Contenido
- 1 Causas del sesgo de muestreo
- 2 Corrección y reducción del sesgo de muestreo
- 3 Sesgo de muestreo, error de muestreo, sesgo de función de probabilidad y sesgo de muestreo limitado
- 4 El efecto del muestreo limitado en la determinación de relaciones estadísticas y causales
- 5 Sesgo de muestreo en neurociencia
- 6 Referencias
- 7 Enlaces externos
- 8 Véase también
Causas del sesgo de muestreo
Una causa común del sesgo de muestreo radica en el diseño del estudio o en la recopilación de datos procedimiento, los cuales pueden favorecer o desfavorecer la recopilación de datos de ciertas clases o individuos o en ciertas condiciones. El sesgo de muestreo también es particularmente prominente cuando los investigadores adoptan estrategias de muestreo basadas en el juicio o la conveniencia, en las que el criterio utilizado para seleccionar muestras está de alguna manera relacionado con las variables de interés. Por ejemplo, refiriéndose de nuevo al ejemplo de la encuesta de opinión, un investigador académico que recopila datos de opinión puede elegir, por conveniencia, recopilar opiniones principalmente de estudiantes universitarios porque viven cerca, y esto sesgará aún más el muestreo hacia la opinión prevalente en la clase social que vive en el vecindario.
Figura 1: Posibles fuentes de sesgo que ocurre en la selección de una muestra de una población.
En ciencias sociales y económicas, la extracción de muestras aleatorias generalmente requiere un marco de muestreo, como la lista de unidades de toda la población, o alguna información auxiliar sobre algunas características clave de la población objetivo a muestrear. Por ejemplo, para realizar un estudio sobre las escuelas primarias de un determinado país es necesario obtener una lista de todas las escuelas del país, de la que se puede extraer una muestra. Sin embargo, el uso de un marco de muestreo no impide necesariamente el sesgo de muestreo. Por ejemplo, es posible que no se determine correctamente la población objetivo o que se utilice información obsoleta e incompleta, con lo que se excluyen sectores de la población objetivo. Además, incluso cuando el marco de muestreo se selecciona correctamente, el sesgo de muestreo puede surgir de unidades de muestreo no receptivas (por ejemplo, es más probable que ciertas clases de sujetos se nieguen a participar, o sea más difícil ponerse en contacto, etc.).) La falta de respuesta es particularmente probable que cause sesgo cuando la razón de la falta de respuesta está relacionada con el fenómeno en estudio. La figura 1 ilustra cómo los desajustes entre el marco de muestreo y la población objetivo, así como las no respuestas, podrían sesgar la muestra.
En experimentos en ciencias físicas y biológicas, el sesgo de muestreo a menudo ocurre cuando la variable objetivo a medir durante el experimento (por ejemplo, la energía de un sistema físico) se correlaciona con otros factores (por ejemplo, la temperatura del sistema) que se mantienen fijos o confinados dentro de un rango controlado durante el experimento. Considere, por ejemplo, la determinación de la distribución de probabilidad de la velocidad de todos los automóviles en las carreteras británicas en cualquier momento durante un día determinado. La velocidad está definitivamente relacionada con la ubicación: por lo tanto, medir la velocidad solo en ciertos tipos de ubicaciones puede sesgar la muestra. Por ejemplo, si se toman todas las medidas en los cruces de tráfico más transitados en el centro de la ciudad, la distribución de las velocidades de los automóviles muestreada no será representativa de los automóviles británicos y estará fuertemente sesgada hacia velocidades lentas, porque descuida a los automóviles que viajan en autopistas y otras carreteras rápidas. Es importante señalar que una distorsión sistemática de la distribución de una muestra de una variable aleatoria puede deberse también a factores distintos del sesgo de muestreo, como un error sistemático en los instrumentos utilizados para recoger los datos de la muestra. Considerando de nuevo el ejemplo de la distribución de la velocidad de los automóviles en Gran Bretaña, y supongamos que el experimentador tiene acceso a la lectura simultánea de los velocímetros colocados en cada automóvil, de modo que no haya sesgo de muestreo. Si la mayoría de los velocímetros se ajustan para sobreestimar la velocidad, y para sobreestimarla más a mayor velocidad, entonces la distribución de la muestra resultante estará sesgada hacia altas velocidades.
Corrección y reducción del sesgo de muestreo
Para reducir el sesgo de muestreo, los dos pasos más importantes al diseñar un estudio o un experimento son (i) evitar el juicio o el muestreo conveniente (ii) para garantizar que la población objetivo esté definida adecuadamente y que el marco de la muestra coincida tanto como sea posible. Cuando los recursos finitos o las razones de eficiencia limiten la posibilidad de muestrear a toda la población, se debe velar por que las poblaciones excluidas no difieran de la población general en términos de las estadísticas que deben medirse. En ciencias sociales, las encuestas representativas de la población por lo general no son simples muestras aleatorias, sino que siguen diseños de muestras más complejos (Cochran, 1977). Por ejemplo, en una encuesta de hogares típica, se selecciona una muestra de hogares en dos etapas: en una primera etapa hay una selección de aldeas o partes de ciudades (grupo) y en una segunda etapa se selecciona un número determinado de hogares dentro del mismo grupo. Al adoptar diseños de muestra tan complejos, es esencial asegurarse de que la información del marco de muestra se utiliza correctamente y de que la probabilidad y la selección aleatoria se implementan y documentan en cada etapa del proceso de muestreo. De hecho, esa información será esencial para calcular estimaciones imparciales de la población utilizando pesos de muestreo (el inverso de la probabilidad de selección) y teniendo en cuenta el diseño de muestreo para calcular correctamente el error de muestreo. En los diseños de muestras complejas, el error de muestreo siempre será mayor que en las muestras aleatorias simples (Cochran 1977).
Siempre que el marco de muestreo incluya unidades que ya no existen (por ejemplo, porque los marcos de muestra son incorrectos y obsoletos), será imposible obtener muestras de dichas unidades no existentes. Esta situación no sesga las estimaciones, siempre que estos casos no se sustituyan por métodos no aleatorios, y que los pesos de muestreo originales se ajusten adecuadamente para tener en cuenta dichas imperfecciones del marco de la muestra (sin embargo, las imperfecciones del marco de la muestra claramente tienen implicaciones en los costos y, si se reduce el tamaño de la muestra, también influye en el tamaño del error de muestreo).
Las soluciones al sesgo debido a la falta de respuesta son mucho más articuladas, y generalmente se pueden dividir en soluciones ex ante y ex post (Groves et al. 1998). Las soluciones ex ante tratan de prevenir y minimizar la falta de respuesta de diversas maneras (por ejemplo, capacitación específica de los empadronadores, varios intentos de entrevistar al encuestado, etc.).), mientras que las soluciones ex post intentan recopilar información auxiliar sobre los no encuestados, que luego se utiliza para calcular una probabilidad de respuesta para diferentes subgrupos de población y, por lo tanto, volver a ponderar los datos de respuesta para la inversa de dicha probabilidad o, alternativamente, algunos datos de estratificación y calibración posteriores.
Sesgo de muestreo, error de muestreo, sesgo de función de probabilidad y sesgo de muestreo limitado
El concepto de sesgo de muestreo no debe confundirse con otros conceptos relacionados pero distintos, como «error de muestreo», «sesgo de una función de probabilidad» y «sesgo de muestreo limitado». El error de muestreo de una función de la distribución de probabilidad (como la varianza o la entropía de la distribución) es la diferencia entre la estimación de la función de probabilidad calculada sobre la distribución muestreada y el valor correcto de la función calculada sobre la distribución verdadera. El sesgo de un funcional de una distribución de probabilidad se define como el valor esperado del error de muestreo. El sesgo de muestreo puede conducir a un sesgo de probabilidad funcional. Sin embargo, los dos conceptos no son equivalentes.
Un sesgo puede surgir cuando se mide una función no lineal de las probabilidades de un número limitado de muestras experimentales, incluso cuando estas muestras se seleccionan verdaderamente aleatoriamente de la población subyacente y, por lo tanto, no hay sesgo de muestreo. Este sesgo se denomina «sesgo de muestreo limitado». A continuación daremos un ejemplo del sesgo de muestreo limitado de la información mutua.
El efecto del muestreo limitado en la determinación de las relaciones estadísticas y causales
\(\tag{1}I (X;Y) = \sum_{x,y} P(x,y) \, log_2 \frac{P(x,y)}{P(x) \cdot P(y)}\)
sin Embargo, en la práctica puede ser difícil a medida \(I(X;Y)\) porque los valores exactos de las probabilidades \(P(x), P(y) y P(x,y)\) por lo general son desconocidos. En principio, puede ser fácil estimar estas probabilidades a partir de distribuciones de frecuencia observadas en muestras experimentales, pero esto generalmente conduce a estimaciones sesgadas de \(I(X;Y)\,\), incluso si las muestras utilizadas para estimar \(P(x), P(y) y P(x, y)\) son en sí mismas muestras representativas e imparciales de las distribuciones subyacentes de \(X\) y \(Y\ .\) Este tipo particular de sesgo se denomina «sesgo de muestreo limitado», y se define como la diferencia entre el valor esperado de la función de probabilidad calculada a partir de las distribuciones de probabilidad estimadas con muestras \(N\), y su valor calculado a partir de las distribuciones de probabilidad verdaderas.
Figura 2: El limitado el sesgo de muestreo. Simulación de un sistema» desinformativo » cuya respuesta discreta y se distribuye con una distribución uniforme que varía de 1 a 10, independientemente de cuál de los dos valores de una supuesta variable explicativa x se presentó. Ejemplos de histogramas empíricos de probabilidad de respuesta (líneas sólidas rojas) muestreados de 40 y 200 observaciones (fila superior e inferior, respectivamente) se muestran en las columnas izquierda y central (respuestas a x = 1 y x = 2, respectivamente). La línea horizontal de puntos negros es la distribución de respuesta verdadera. La columna de la derecha muestra (como histogramas azules) la distribución (más de 5000 simulaciones) de los valores de información mutua obtenidos con 40 (arriba) y 200 (abajo) observaciones, respectivamente. A medida que aumenta el número de observaciones, disminuye el sesgo de muestreo limitado. La línea vertical verde discontinua en las columnas de la derecha indica el valor real de la información mutua transportada por el sistema simulado (que equivale a 0 bits).
A modo de ejemplo, considere una variable de respuesta hipotética \(Y\) que se distribuye uniformemente en el rango 1-10, y una «variable explicativa» \(X\) que puede asumir valores de 1 o 2. Supongamos que estos son en realidad completamente independientes unos de otros, y por lo tanto observar valores de \(x\) no puede ayudar a predecir valores probables de \(y\ .\ ) Sin embargo, un experimentador que busca posibles relaciones entre \(X\) y \(Y\) no lo sabe. En este caso, la probabilidad condicional verdadera \(P (y / x)\) es 0.1 (Figura 2A y Figura 2B, línea de puntos negra) para todas las combinaciones de \(x\)y \(y\,\), lo que significa que \(P(y)\) también es 0.1; en consecuencia, el valor verdadero de la información mutua es nulo. Las Figuras 2A y 2B muestran las frecuencias de observación experimental (curvas rojas) obtenidas de un experimento simulado con \(N\)= 40 muestras (20 muestras para cada valor de \(x\)). En este ejemplo simulado, las muestras se tomaron de forma verdaderamente aleatoria y correcta de las distribuciones de probabilidad subyacentes, y por lo tanto no hubo sesgo de muestreo. Sin embargo, debido al muestreo limitado, las probabilidades estimadas (línea roja de la Figura 2A y la Figura 2B) difieren marcadamente de 0.1 y entre sí, y la estimación de información mutua obtenida conectando las estimaciones obtenidas experimentalmente en la fórmula anterior no es nula (0.2 bits). Repitiendo el experimento simulado una y otra vez, se obtienen resultados ligeramente diferentes cada vez ( Figura 2C): la distribución de información calculada a partir de \(N\)= 40 muestras se centra en 0,202 bits, y no en el valor verdadero de 0 bits. Esto demuestra que la estimación de la información mutua adolece de un sesgo de muestreo limitado. Cuanto mayor sea el número de muestras, menores serán las fluctuaciones en las probabilidades estimadas y, en consecuencia, menor será el sesgo de muestreo limitado. Por ejemplo, con \(N\)= 200 muestras; (100 muestras para cada valor de \(x\ ;\) Figura 2D-F), el sesgo de muestreo limitado de la información mutua es de 0,033 bits. Problemas similares se aplican también a las medidas de relaciones causales, como la causalidad de Granger y la entropía de transferencia. Tenga en cuenta que el sesgo de muestreo limitado surge porque la información mutua es una función no lineal de las probabilidades. Las probabilidades en sí mismas no se verían afectadas por un sesgo de muestreo limitado, porque promediarían las probabilidades verdaderas en muchas repeticiones del experimento con un número finito de datos.
El sesgo de muestreo limitado se puede corregir calculando su valor aproximado analíticamente y restándolo, o utilizando información previa sobre las distribuciones de probabilidad subyacentes para reducir sus fluctuaciones de muestreo estadístico(Panzeri et al. 2007).
Sesgo de muestreo en neurociencia
En los últimos años ha habido un interés creciente en el efecto del sesgo de muestreo y del sesgo de muestreo limitado en neurociencia. Un problema importante en la neurociencia sensorial es entender cómo las redes de neuronas representan e intercambian información sensorial por medio de su patrón coordinado de respuesta a estímulos. Un enfoque empírico ampliamente utilizado para este problema es registrar extracelularmente los potenciales de acción emitidos por las neuronas. Los electrodos extracelulares a menudo se colocan en una ubicación cerebral seleccionada porque se pueden detectar potenciales de acción. Se reconoce que este procedimiento puede sesgar el muestreo hacia neuronas más grandes (que emiten señales que son más fáciles de detectar) y hacia las neuronas más activas (Shoham et al. 2006). Esto está relacionado en cierta medida con el problema del «muestreo por conveniencia» mencionado anteriormente. Los neurocientíficos son más propensos a informar el comportamiento de aquellas neuronas que se observan más fácilmente («convenientemente») con los métodos a su disposición. La corrección de este sesgo de muestreo requiere el registro también de neuronas más pequeñas y menos activas y la evaluación, utilizando varios tipos de información anatómica y funcional, de las distribuciones relativas de diferentes tipos de poblaciones neuronales. Las implicaciones de este problema de muestreo y las formas de tenerlo en cuenta se discuten en (Shoham et al. 2006). El sesgo de muestreo limitado da problemas en la determinación de la relación causal entre los estímulos sensoriales y ciertas características de las respuestas de la población neuronal, porque puede aumentar artificialmente la información mutua disponible en caracterizaciones complejas de las respuestas neuronales (como las basadas en los tiempos precisos de los potenciales de acción) sobre la información disponible en la caracterización más simple de la actividad neuronal (como las que descuidan los detalles de la estructura temporal de la respuesta neuronal). Las implicaciones de este problema de muestreo y las formas de corregirlo se discuten en (Panzeri et al. 2007).