Conservateur: Cesare Magri
Ludovico Carraro
Eugene M. Izhikevich
Stefano Panzeri
p>
Nick Orbeck
Le biais d’échantillonnage signifie que les échantillons d’une variable stochastique qui sont collectés pour déterminer sa distribution sont mal sélectionnés et ne représentent pas la vraie distribution pour des raisons non aléatoires. Considérons un exemple spécifique: nous pourrions vouloir prédire l’issue d’une élection présidentielle au moyen d’un sondage d’opinion. Demander à 1000 électeurs leurs intentions de vote peut donner une prédiction assez précise du gagnant probable, mais seulement si notre échantillon de 1000 électeurs est « représentatif » de l’électorat dans son ensemble (c’est-à-dire impartial). Si nous ne sondons que l’opinion de 1000 étudiants blancs de la classe moyenne, alors les opinions de nombreuses parties importantes de l’électorat dans son ensemble (minorités ethniques, personnes âgées, cols bleus) seront probablement sous-représentées dans l’échantillon, et notre capacité à prédire le résultat de l’élection à partir de cet échantillon est réduite.
Dans un échantillon impartial, les différences entre les échantillons prélevés sur une variable aléatoire et sa distribution réelle, ou les différences entre les échantillons d’unités d’une population et l’ensemble de la population qu’ils représentent, ne devraient résulter que du hasard. Si leurs différences ne sont pas uniquement dues au hasard, il existe un biais d’échantillonnage. Le biais d’échantillonnage survient souvent parce que certaines valeurs de la variable sont systématiquement sous-représentées ou surreprésentées par rapport à la distribution réelle de la variable (comme dans notre exemple de sondage d’opinion ci-dessus). En raison de sa nature cohérente, le biais d’échantillonnage entraîne une distorsion systématique de l’estimation de la distribution de probabilité échantillonnée. Cette distorsion ne peut être éliminée en augmentant le nombre d’échantillons de données et doit être corrigée au moyen de techniques appropriées, dont certaines sont discutées ci-dessous. En d’autres termes, sonder 1000 étudiants blancs supplémentaires n’améliorera pas le pouvoir prédictif de notre sondage d’opinion, mais sonder 1000 personnes choisies au hasard sur les listes électorales le ferait. De toute évidence, un échantillon biaisé peut causer des problèmes dans la mesure des fonctions de probabilité (p. ex., la variance ou l’entropie de la distribution), puisque toute statistique calculée à partir de cet échantillon a le potentiel d’être systématiquement erronée.
- Contenu
- Causes du biais d’échantillonnage
- Correction et réduction du biais d’échantillonnage
- Biais d’échantillonnage, erreur d’échantillonnage, biais de la fonction de probabilité et biais d’échantillonnage limité
- L’effet d’un échantillonnage limité sur la détermination des relations statistiques et causales
- Biais d’échantillonnage en neurosciences
Contenu
- 1 Causes du biais d’échantillonnage
- 2 Correction et réduction du biais d’échantillonnage
- 3 Biais d’échantillonnage, erreur d’échantillonnage, biais de la fonction de probabilité et biais d’échantillonnage limité
- 4 L’effet d’un échantillonnage limité sur la détermination des relations statistiques et causales
- 5 Biais d’échantillonnage en neurosciences
- 6 Références
- 7 Liens externes
- 8Voir aussi
Causes du biais d’échantillonnage
Une cause fréquente de biais d’échantillonnage réside dans la conception de l’étude ou dans la collecte de données procédure, qui peuvent toutes deux favoriser ou défavoriser la collecte de données auprès de certaines classes ou individus ou dans certaines conditions. Le biais d’échantillonnage est également particulièrement important lorsque les chercheurs adoptent des stratégies d’échantillonnage fondées sur le jugement ou la commodité, dans lesquelles le critère utilisé pour sélectionner les échantillons est en quelque sorte lié aux variables d’intérêt. Par exemple, en se référant à nouveau à l’exemple du sondage d’opinion, un chercheur universitaire recueillant des données d’opinion peut choisir, pour des raisons de commodité, de recueillir principalement des opinions d’étudiants parce qu’ils vivent à proximité, ce qui biaisera davantage l’échantillonnage vers l’opinion répandue dans la classe sociale vivant dans le quartier.
Figure 1: Sources possibles de biais dans la sélection d’un échantillon d’une population.
En sciences sociales et économiques, l’extraction d’échantillons aléatoires nécessite généralement une base d’échantillonnage telle que la liste des unités de l’ensemble de la population, ou des informations auxiliaires sur certaines caractéristiques clés de la population cible à échantillonner. Par exemple, pour mener une étude sur les écoles primaires dans un certain pays, il faut obtenir une liste de toutes les écoles du pays, à partir de laquelle un échantillon peut être extrait. Cependant, l’utilisation d’une base d’échantillonnage n’empêche pas nécessairement le biais d’échantillonnage. Par exemple, on peut ne pas déterminer correctement la population cible ou utiliser des informations périmées et incomplètes, excluant ainsi des sections de la population cible. De plus, même lorsque la base d’échantillonnage est sélectionnée correctement, un biais d’échantillonnage peut provenir d’unités d’échantillonnage non réactives (par exemple, certaines classes de sujets peuvent être plus susceptibles de refuser de participer, ou peuvent être plus difficiles à contacter, etc.) Les non-réponses sont particulièrement susceptibles de provoquer un biais lorsque la raison de la non-réponse est liée au phénomène étudié. La figure 1 illustre comment les inadéquations entre la base d’échantillonnage et la population cible, ainsi que les non-réponses, pourraient biaiser l’échantillon.
Dans les expériences en sciences physiques et biologiques, un biais d’échantillonnage se produit souvent lorsque la variable cible à mesurer pendant l’expérience (par exemple l’énergie d’un système physique) est corrélée à d’autres facteurs (par exemple la température du système) qui sont maintenus fixes ou confinés dans une plage contrôlée pendant l’expérience. Considérons par exemple la détermination de la distribution de probabilité de la vitesse de toutes les voitures sur les routes britanniques à tout moment au cours d’une certaine journée. La vitesse est certainement liée à l’emplacement: par conséquent, la mesure de la vitesse uniquement à certains types d’emplacements peut biaiser l’échantillon. Par exemple, si toutes les mesures sont prises aux carrefours très fréquentés du centre-ville, la répartition échantillonnée des vitesses des voitures ne sera pas représentative des voitures britanniques et sera fortement orientée vers les vitesses lentes, car elle néglige les voitures circulant sur les autoroutes et sur d’autres routes rapides. Il est important de noter qu’une distorsion systématique d’une distribution échantillonnée d’une variable aléatoire peut également résulter de facteurs autres que le biais d’échantillonnage, tels qu’une erreur systématique dans les instruments utilisés pour collecter les données d’échantillonnage. Considérant à nouveau l’exemple de la répartition de la vitesse des voitures en Grande-Bretagne, et supposons que l’expérimentateur ait accès à la lecture simultanée des compteurs de vitesse placés sur chaque voiture, de sorte qu’il n’y ait pas de biais d’échantillonnage. Si la plupart des compteurs de vitesse sont réglés pour surestimer la vitesse et pour la surestimer davantage à une vitesse plus élevée, la distribution échantillonnée résultante sera biaisée vers des vitesses élevées.
Correction et réduction du biais d’échantillonnage
Pour réduire le biais d’échantillonnage, les deux étapes les plus importantes lors de la conception d’une étude ou d’une expérience sont (i) d’éviter l’échantillonnage de jugement ou de commodité (ii) de s’assurer que la population cible est correctement définie et que la base d’échantillonnage la correspond autant que possible. Lorsque des ressources limitées ou des raisons d’efficacité limitent la possibilité d’échantillonner l’ensemble de la population, il convient de veiller à ce que les populations exclues ne diffèrent pas de l’ensemble en termes de statistiques à mesurer. En sciences sociales, les enquêtes représentatives de la population ne sont généralement pas de simples échantillons aléatoires, mais suivent des plans d’échantillonnage plus complexes (Cochran, 1977). Par exemple, dans une enquête type auprès des ménages, un échantillon de ménages est sélectionné en deux étapes: dans une première étape, il y a une sélection de villages ou de parties de villes (cluster) et dans une deuxième étape, un nombre défini de ménages est sélectionné au sein du même cluster. Lors de l’adoption de plans d’échantillonnage aussi complexes, il est essentiel de s’assurer que les informations de la base d’échantillonnage sont utilisées correctement et que la probabilité et la sélection aléatoire sont mises en œuvre et documentées à chaque étape du processus d’échantillonnage. En fait, ces informations seront essentielles pour calculer des estimations impartiales pour la population en utilisant des poids d’échantillonnage (l’inverse de la probabilité de sélection) et en tenant compte du plan d’échantillonnage afin de calculer correctement l’erreur d’échantillonnage. Dans les plans d’échantillonnage complexes, l’erreur d’échantillonnage sera toujours plus grande que dans les échantillons aléatoires simples (Cochran, 1977).
Chaque fois que la base d’échantillonnage comprend des unités qui n’existent plus (par exemple, parce que les bases d’échantillonnage sont incorrectes et obsolètes), il sera impossible d’obtenir des échantillons de ces unités non existantes. Cette situation ne biaise pas les estimations, à condition que de tels cas ne soient pas substitués à l’aide de méthodes non aléatoires et que les poids d’échantillonnage originaux soient correctement ajustés pour tenir compte de ces imperfections de la base d’échantillonnage (néanmoins, les imperfections de la base d’échantillonnage ont clairement des répercussions sur les coûts et si la taille de l’échantillon est réduite, cela influe également sur la taille de l’erreur d’échantillonnage).
Les solutions au biais dû à la non-réponse sont beaucoup plus articulées et peuvent généralement être divisées en solutions ex ante et ex post (Groves et al. 1998). Les solutions ex ante tentent de prévenir et de minimiser la non-réponse de diverses manières (par exemple, une formation spécifique des recenseurs, plusieurs tentatives d’interviewer le répondant, etc.) alors que les solutions ex-post tentent de recueillir des informations auxiliaires sur les non-répondants qui sont ensuite utilisées pour calculer une probabilité de réponse pour différents sous-groupes de population et ainsi pondérer les données de réponse pour l’inverse de cette probabilité ou encore une post-stratification et un étalonnage.
Biais d’échantillonnage, erreur d’échantillonnage, biais de la fonction de probabilité et biais d’échantillonnage limité
Le concept de biais d’échantillonnage ne doit pas être confondu avec d’autres concepts connexes mais distincts tels que « erreur d’échantillonnage”, « biais d’une fonction de probabilité” et « biais d’échantillonnage limité”. L’erreur d’échantillonnage d’une fonctionnelle de la distribution de probabilité (telle que la variance ou l’entropie de la distribution) est la différence entre l’estimation de la fonctionnelle de probabilité calculée sur la distribution échantillonnée et la valeur correcte de la fonctionnelle calculée sur la distribution vraie. Le biais d’une fonction d’une distribution de probabilité est défini comme la valeur attendue de l’erreur d’échantillonnage. Le biais d’échantillonnage peut conduire à un biais d’une fonction de probabilité. Cependant, les deux concepts ne sont pas équivalents.
Un biais peut survenir lors de la mesure d’une fonction non linéaire des probabilités à partir d’un nombre limité d’échantillons expérimentaux, même lorsque ces échantillons sont vraiment prélevés au hasard dans la population sous-jacente et qu’il n’y a donc pas de biais d’échantillonnage. Ce biais est appelé « biais d’échantillonnage limité ». Nous donnerons ci-dessous un exemple du biais d’échantillonnage limité de l’information mutuelle.
L’effet d’un échantillonnage limité sur la détermination des relations statistiques et causales
\(\tag{1}I(X;Y) = \sum_{x,y} P(x, y) \, log_2\frac{P(x,y)}{P(x) \cdot P(y)} \)
Cependant, en pratique, il peut être difficile de mesurer \(I(X;Y)\) car les valeurs exactes des probabilités \(P(x), P(y) et P(x,y)\) sont généralement inconnues. Il peut être facile en principe d’estimer ces probabilités à partir des distributions de fréquences observées dans des échantillons expérimentaux, mais cela conduit généralement à des estimations biaisées de \(I(X;Y)\,\) même si les échantillons utilisés pour estimer \(P(x), P(y) et P(x, y)\) sont eux-mêmes des échantillons non biaisés, représentatifs des distributions sous-jacentes de \(X\) et \(Y\.\) Ce type particulier de biais est appelé « biais d’échantillonnage limité”, et est défini comme la différence entre la valeur attendue de la fonction de probabilité calculée à partir des distributions de probabilité estimées avec \(N\) échantillons, et sa valeur calculée à partir des distributions de probabilité réelles.
Figure 2: Le biais d’échantillonnage limité. Simulation d’un système « non informatif » dont la réponse discrète y est distribuée avec une distribution uniforme allant de 1 à 10, indépendamment de laquelle des deux valeurs d’une variable explicative putative x ont été présentées. Des exemples d’histogrammes empiriques de probabilité de réponse (traits pleins rouges) échantillonnés à partir de 40 et 200 observations (rangées supérieure et inférieure respectivement) sont présentés dans les colonnes de gauche et centrale (réponses à x = 1 et x = 2 respectivement). La ligne horizontale pointillée noire est la vraie distribution de réponse. La colonne de droite montre (sous forme d’histogrammes bleus) la distribution (plus de 5000 simulations) des valeurs d’informations mutuelles obtenues avec respectivement 40 (en haut) et 200 (en bas) observations. À mesure que le nombre d’observations augmente, le biais d’échantillonnage limité diminue. La ligne verticale verte en pointillés dans les colonnes de droite indique la valeur réelle de l’information mutuelle portée par le système simulé (qui est égale à 0 bit).
À titre d’exemple, considérons une variable de réponse hypothétique \(Y\) qui est uniformément distribuée dans la plage 1-10, et une « variable explicative » \(X\) qui peut prendre des valeurs de 1 ou 2. Supposons que ceux-ci sont en réalité complètement indépendants les uns des autres, et donc l’observation des valeurs de \(x\) ne peut pas aider à prédire les valeurs probables de \(y\.\) Cependant, un expérimentateur à la recherche de relations possibles entre \(X\) et \(Y\) ne le sait pas. Dans ce cas, la probabilité conditionnelle réelle \(P(y|x)\) est 0.1 (Figure 2A et Figure 2B, ligne pointillée noire) pour toutes les combinaisons de \(x\) et \(y\,\) ce qui signifie que \(P(y)\) vaut également 0,1; par conséquent, la vraie valeur de l’information mutuelle est nulle. Les figures 2A et 2B montrent les fréquences d’observation expérimentales (courbes rouges) obtenues à partir d’une expérience simulée avec \(N\) = 40 échantillons (20 échantillons pour chaque valeur de \(x\)). Dans cet exemple simulé, les échantillons ont été prélevés de manière vraiment aléatoire et correcte à partir des distributions de probabilité sous-jacentes, et il n’y a donc pas eu de biais d’échantillonnage. Cependant, en raison d’un échantillonnage limité, les probabilités estimées (ligne rouge de la figure 2A et de la figure 2B) diffèrent nettement de 0,1 et l’une de l’autre, et l’estimation des informations mutuelles obtenue en branchant les estimations obtenues expérimentalement dans la formule ci-dessus est non nulle (0,2 bits). En répétant encore et encore l’expérience simulée, on obtient à chaque fois des résultats légèrement différents (Figure 2C): la distribution d’informations calculée à partir de \(N\) = 40 échantillons est centrée sur 0,202 bits – et non sur la valeur réelle de 0 bits. Cela montre que l’estimation de l’information mutuelle souffre d’un biais d’échantillonnage limité. Plus le nombre d’échantillons est élevé, plus les fluctuations des probabilités estimées sont faibles et, par conséquent, plus le biais d’échantillonnage limité est faible. Par exemple, avec \(N\) = 200 échantillons; (100 échantillons pour chaque valeur de \(x\;\) Figure 2D-F), le biais d’échantillonnage limité de l’information mutuelle est de 0,033 bits. Des problèmes similaires s’appliquent également aux mesures des relations causales telles que la causalité de Granger et l’entropie de transfert. Notez que le biais d’échantillonnage limité provient du fait que l’information mutuelle est une fonction non linéaire des probabilités. Les probabilités elles-mêmes ne seraient pas affectées par un biais d’échantillonnage limité, car elles feraient la moyenne des probabilités réelles sur de nombreuses répétitions de l’expérience avec un nombre fini de données.
Un biais d’échantillonnage limité peut être corrigé en calculant analytiquement sa valeur approximative et en la soustrayant, ou en utilisant des informations préalables sur les distributions de probabilité sous-jacentes pour réduire leurs fluctuations statistiques d’échantillonnage (Panzeri et al. 2007).
Biais d’échantillonnage en neurosciences
Au cours des dernières années, l’effet du biais d’échantillonnage et du biais d’échantillonnage limité en neurosciences ont suscité un intérêt croissant. Un problème important en neurosciences sensorielles est de comprendre comment les réseaux de neurones représentent et échangent des informations sensorielles au moyen de leur modèle coordonné de réponse aux stimuli. Une approche empirique largement utilisée de ce problème consiste à enregistrer de manière extracellulaire les potentiels d’action émis par les neurones. Les électrodes extracellulaires sont souvent placées dans un emplacement du cerveau sélectionné car des potentiels d’action peuvent être détectés. Il est reconnu que cette procédure peut biaiser l’échantillonnage vers les neurones plus gros (émettant des signaux plus faciles à détecter) et vers les neurones les plus actifs (Shoham et al. 2006). Ceci est en quelque sorte lié au problème de « l’échantillonnage de commodité » discuté ci-dessus. Les neuroscientifiques sont plus susceptibles de signaler le comportement des neurones les plus facilement (« commodément ») observés avec les méthodes à leur disposition. La correction de ce biais d’échantillonnage nécessite d’enregistrer également des neurones plus petits et moins actifs et d’évaluer, à l’aide de divers types d’informations anatomiques et fonctionnelles, les distributions relatives de différents types de populations neuronales. Les implications de ce problème d’échantillonnage et les moyens d’en tenir compte sont discutées dans (Shoham et al. 2006). Le biais d’échantillonnage limité pose des problèmes dans la détermination de la relation causale entre les stimuli sensoriels et certaines caractéristiques des réponses de la population neuronale, car il peut augmenter artificiellement les informations mutuelles disponibles dans les caractérisations complexes des réponses neuronales (telles que celles basées sur les temps précis des potentiels d’action) par rapport aux informations disponibles dans la caractérisation plus simple de l’activité neuronale (telles que celles qui négligent les détails de la structure temporelle de la réponse neuronale). Les implications de ce problème d’échantillonnage et les moyens de le corriger sont discutés dans (Panzeri et al. 2007).