Campionamento bias

Post-pubblicazione attività

Curatore: Cesare Magri

Collaboratori:
0.33 –

Ludovico Carraro

0.33 –

Eugene M. Izhikevich

0.33 –

Stefano Panzeri

0.17 –

Nick Orbeck

Bias di campionamento significa che i campioni di una variabile stocastica che non sono raccolti per determinare la sua distribuzione sono selezionati in modo non corretto e non rappresentano la vera distribuzione perché non casuale motivi. Consideriamo un esempio specifico: potremmo voler prevedere l’esito di un’elezione presidenziale per mezzo di un sondaggio d’opinione. Chiedere a 1000 elettori le loro intenzioni di voto può dare una previsione abbastanza accurata del probabile vincitore, ma solo se il nostro campione di 1000 elettori è “rappresentativo” dell’elettorato nel suo complesso (cioè imparziale). Se sondiamo solo l’opinione di 1000 studenti universitari della classe media bianca, è probabile che le opinioni di molte parti importanti dell’elettorato nel suo complesso (minoranze etniche, anziani, colletti blu) siano sottorappresentate nel campione e la nostra capacità di prevedere l’esito delle elezioni da quel campione sia ridotta.

In un campione imparziale, le differenze tra i campioni prelevati da una variabile casuale e la sua vera distribuzione, o le differenze tra i campioni di unità di una popolazione e l’intera popolazione che rappresentano, dovrebbero derivare solo dal caso. Se le loro differenze non sono solo dovute al caso, allora c’è un pregiudizio di campionamento. Il bias di campionamento si verifica spesso perché determinati valori della variabile sono sistematicamente sottorappresentati o sovrarappresentati rispetto alla vera distribuzione della variabile (come nel nostro esempio di sondaggio di opinione sopra). A causa della sua natura coerente, il bias di campionamento porta a una distorsione sistematica della stima della distribuzione di probabilità campionata. Questa distorsione non può essere eliminata aumentando il numero di campioni di dati e deve essere corretta mediante tecniche appropriate, alcune delle quali sono discusse di seguito. In altre parole, polling un ulteriore 1000 studenti universitari bianchi non migliorerà il potere predittivo del nostro sondaggio di opinione, ma polling 1000 individui scelti a caso dalla lista elettorale sarebbe. Ovviamente, un campione parziale può causare problemi nella misura dei funzionali di probabilità (ad es., la varianza o l’entropia della distribuzione), poiché qualsiasi statistica calcolata da quel campione ha il potenziale per essere costantemente errata.

  • 1 Cause di errori sistematici di campionamento
  • 2 di Correzione e riduzione degli errori sistematici di campionamento
  • 3 bias di Campionamento, errore di campionamento, la polarizzazione della funzione di probabilità, e limitato di campionamento bias
  • 4 L’effetto della limitata di campionamento per la determinazione di statistica e relazioni causali
  • 5 bias di Campionamento in neuroscience
  • 6 Riferimenti
  • 7 collegamenti Esterni
  • 8

Cause di errori sistematici di campionamento

Una causa comune di errori sistematici di campionamento si trova nel disegno dello studio, o la raccolta di dati procedura, entrambi i quali possono favorire o disapprovare la raccolta di dati da determinate classi o individui o in determinate condizioni. Il bias di campionamento è anche particolarmente importante ogni volta che i ricercatori adottano strategie di campionamento basate sul giudizio o sulla convenienza, in cui il criterio utilizzato per selezionare i campioni è in qualche modo correlato alle variabili di interesse. Ad esempio, riferendosi nuovamente all’esempio del sondaggio di opinione, un ricercatore accademico che raccoglie dati di opinione può scegliere, a causa della convenienza, di raccogliere opinioni principalmente da studenti universitari perché vivono nelle vicinanze, e questo favorirà ulteriormente il campionamento verso l’opinione prevalente nella classe sociale che vive nel quartiere.

Figura 1: Possibili fonti di bias che si verificano nella selezione di un campione da una popolazione.

Nelle scienze sociali ed economiche, l’estrazione di campioni casuali richiede in genere un frame di campionamento come l’elenco delle unità dell’intera popolazione o alcune informazioni ausiliarie su alcune caratteristiche chiave della popolazione target da campionare. Ad esempio, condurre uno studio sulle scuole primarie in un determinato paese richiede di ottenere un elenco di tutte le scuole del paese, da cui è possibile estrarre un campione. Tuttavia, l’utilizzo di un frame di campionamento non impedisce necessariamente il bias del campionamento. Ad esempio, si può non determinare correttamente la popolazione target o utilizzare informazioni obsolete e incomplete, escludendo così sezioni della popolazione target. Inoltre, anche quando il frame di campionamento è selezionato correttamente, la polarizzazione del campionamento può derivare da unità di campionamento non reattive (ad esempio, alcune classi di soggetti potrebbero essere più propense a rifiutarsi di partecipare o potrebbero essere più difficili da contattare, ecc.) Le non risposte sono particolarmente suscettibili di causare pregiudizi ogni volta che la ragione della non risposta è correlata al fenomeno in esame. La figura 1 illustra come le discrepanze tra il frame di campionamento e la popolazione target, così come le non risposte, potrebbero influenzare il campione.

Negli esperimenti in scienze fisiche e biologiche, il bias di campionamento si verifica spesso quando la variabile bersaglio da misurare durante l’esperimento (ad esempio l’energia di un sistema fisico) è correlata ad altri fattori (ad esempio la temperatura del sistema) che vengono mantenuti fissi o confinati in un intervallo controllato durante l’esperimento. Si consideri ad esempio la determinazione della distribuzione di probabilità della velocità di tutte le auto sulle strade britanniche in qualsiasi momento durante un determinato giorno. La velocità è sicuramente correlata alla posizione: quindi misurare la velocità solo in determinati tipi di posizioni può alterare il campione. Ad esempio, se tutte le misure sono prese in corrispondenza di incroci trafficati nel centro della città, la distribuzione campionata delle velocità delle auto non sarà rappresentativa delle auto britanniche e sarà fortemente orientata verso le basse velocità, perché trascura le auto che viaggiano sulle autostrade e su altre strade veloci. È importante notare che una distorsione sistematica di una distribuzione campionata di una variabile casuale può derivare anche da fattori diversi dalla distorsione del campionamento, come un errore sistematico negli strumenti utilizzati per raccogliere i dati del campione. Considerando di nuovo l’esempio della distribuzione della velocità delle auto in Gran Bretagna, e supponiamo che lo sperimentatore abbia accesso alla lettura simultanea dei tachimetri posti su ogni auto, in modo che non vi sia alcun pregiudizio di campionamento. Se la maggior parte dei tachimetri è sintonizzata per sopravvalutare la velocità e per sopravvalutarla di più a velocità più elevate, la distribuzione campionata risultante sarà polarizzata verso velocità elevate.

Correzione e riduzione del bias di campionamento

Per ridurre il bias di campionamento, i due passaggi più importanti nella progettazione di uno studio o di un esperimento sono (i) evitare il campionamento di giudizio o convenienza (ii) per garantire che la popolazione target sia adeguatamente definita e che il frame campione corrisponda il più possibile. Quando risorse limitate o ragioni di efficienza limitano la possibilità di campionare l’intera popolazione, occorre fare attenzione a garantire che le popolazioni escluse non differiscano da quella complessiva in termini di statistiche da misurare. Nelle scienze sociali le indagini rappresentative della popolazione più comunemente non sono semplici campioni casuali, ma seguono disegni di campioni più complessi (Cochran 1977). Ad esempio, in un’indagine tipica sulle famiglie, un campione di famiglie viene selezionato in due fasi: in una prima fase vi è una selezione di villaggi o parti di città (cluster) e in una seconda fase viene selezionato un determinato numero di famiglie all’interno dello stesso cluster. Quando si adottano progetti di campioni così complessi, è essenziale garantire che le informazioni del campione siano utilizzate correttamente e che la probabilità e la selezione casuale siano implementate e documentate in ogni fase del processo di campionamento. In effetti, tali informazioni saranno essenziali per calcolare stime imparziali per la popolazione utilizzando i pesi di campionamento (l’inverso della probabilità di selezione) e tenendo conto del progetto di campionamento al fine di calcolare correttamente l’errore di campionamento. Nei progetti di campioni complessi l’errore di campionamento sarà sempre più grande rispetto ai semplici campioni casuali (Cochran 1977).

Ogni volta che il frame di campionamento include unità che non esistono più (ad esempio, perché i frame di campionamento sono errati e obsoleti) sarà impossibile ottenere campioni da tali unità non esistenti. Questa situazione non pregiudica le stime, a condizione che tali casi non siano sostituiti con metodi non casuali e che i pesi di campionamento originali siano adeguatamente adeguati per tenere conto di tali imperfezioni del campione (tuttavia le imperfezioni del campione hanno chiaramente implicazioni sui costi e se la dimensione del campione viene ridotta ciò influenza anche la dimensione dell’errore di campionamento).

Le soluzioni al bias dovuto alla non risposta sono molto più articolate e possono generalmente essere suddivise in soluzioni ex-ante ed ex-post (Groves et al. 1998). Le soluzioni ex ante cercano di prevenire e ridurre al minimo la mancata risposta in vari modi (ad esempio formazione specifica degli enumeratori, diversi tentativi di intervistare il rispondente, ecc.) mentre le soluzioni ex-post cercano di raccogliere informazioni ausiliarie sui non rispondenti che vengono poi utilizzate per calcolare una probabilità di risposta per diversi sottogruppi di popolazione e quindi ridimensionare i dati di risposta per l’inverso di tale probabilità o in alternativa alcuni post-stratificazione e calibrazione.

Bias di campionamento, errore di campionamento, bias della funzione di probabilità e bias di campionamento limitato

Il concetto di bias di campionamento non deve essere confuso con altri concetti correlati ma distinti come “errore di campionamento”, “bias di un funzionale di probabilità” e “bias di campionamento limitato”. L’errore di campionamento di un funzionale della distribuzione di probabilità (come la varianza o l’entropia della distribuzione) è la differenza tra la stima del funzionale di probabilità calcolato sulla distribuzione campionata e il valore corretto del funzionale calcolato sulla distribuzione vera. Il bias di un funzionale di una distribuzione di probabilità è definito come il valore atteso dell’errore di campionamento. Il bias di campionamento può portare a un bias di una probabilità funzionale. Tuttavia, i due concetti non sono equivalenti.

Un bias può sorgere quando si misura un funzionale non lineare delle probabilità da un numero limitato di campioni sperimentali anche quando questi campioni sono veramente raccolti casualmente dalla popolazione sottostante e non vi è quindi alcun bias di campionamento. Questo bias è chiamato “bias di campionamento limitato”. Daremo qui di seguito un esempio del bias campionamento limitato di informazioni reciproche.

L’effetto del campionamento limitato sulla determinazione delle relazioni statistiche e causali

\(\tag{1}I(X;Y) = \ sum_ {x, y} P(x,y) \, log_2 \frac{P(x,y)}{P(x) \cdot P(y)}\)

Tuttavia, in pratica può essere difficile misurare \(I(X;Y)\) perché i valori esatti delle probabilità \(P(x), P(y) e P (x,y)\) sono solitamente sconosciuti. Può essere facile in linea di principio, per stimare tali probabilità osservato le distribuzioni di frequenza nei campioni sperimentali, ma questo di solito porta a stime distorte di \(I(X;Y)\ ,\), anche se i campioni utilizzati per stimare \(P(x), P(y) e P(x,y)\) sono essi stessi imparziale, campioni rappresentativi delle distribuzioni sottostanti di \(X\) e \(Y\ .\ ) Questo particolare tipo di bias è chiamato “bias di campionamento limitato” ed è definito come la differenza tra il valore atteso del funzionale di probabilità calcolato dalle distribuzioni di probabilità stimate con campioni \(N\) e il suo valore calcolato dalle distribuzioni di probabilità vere.

Figura 2: Il bias di campionamento limitato. Simulazione di un sistema” uninformativo ” la cui risposta discreta y è distribuita con una distribuzione uniforme che va da 1 a 10, indipendentemente da quale dei due valori di una variabile esplicativa putativa x sono stati presentati. Esempi di istogrammi di probabilità di risposta empirica (linee continue rosse) campionati da 40 e 200 osservazioni (riga superiore e inferiore rispettivamente) sono mostrati nelle colonne sinistra e centrale (risposte a x = 1 e x = 2 rispettivamente). La linea orizzontale tratteggiata nera è la vera distribuzione di risposta. La colonna di destra mostra (come istogrammi blu) la distribuzione (oltre 5000 simulazioni) dei valori di informazione reciproca ottenuti rispettivamente con 40 (in alto) e 200 (in basso) osservazioni. All’aumentare del numero di osservazioni, il bias di campionamento limitato diminuisce. La linea verticale verde tratteggiata nelle colonne di destra indica il valore reale delle informazioni reciproche trasportate dal sistema simulato (che equivale a 0 bit).

A titolo di esempio, si consideri una variabile di risposta ipotetica \(Y\) che è uniformemente distribuita nell’intervallo 1-10 e una “variabile esplicativa” \(X\) che può assumere valori di 1 o 2. Supponiamo che questi siano in realtà completamente indipendenti l’uno dall’altro, e quindi osservare i valori di \(x\) non può aiutare a prevedere i valori probabili di \(y\ .\ ) Tuttavia, uno sperimentalista alla ricerca di possibili relazioni tra\ (X\) e\ (Y\) non lo sa. In questo caso, la vera probabilità condizionale \(P (y|x)\) è 0.1 (Figura 2A e Figura 2B, linea tratteggiata nera)per tutte le combinazioni di \(x\) e \(y\,\) il che significa che \(P(y)\) è anche 0.1; di conseguenza, il vero valore delle informazioni reciproche è null. La figura 2A e la Figura 2B mostrano le frequenze di osservazione sperimentale(curve rosse) ottenute da un esperimento simulato con \(N\)= 40 campioni(20 campioni per ogni valore di \(x\)). In questo esempio simulato, i campioni sono stati prelevati in modo veramente casuale e corretto dalle distribuzioni di probabilità sottostanti, e quindi non vi era alcun bias di campionamento. Tuttavia, a causa del campionamento limitato, le probabilità stimate (linea rossa di Figura 2A e Figura 2B) differiscono notevolmente da 0.1 e l’una dall’altra, e la stima delle informazioni reciproche ottenuta inserendo le stime ottenute sperimentalmente nella formula sopra è non nulla (0.2 bit). Ripetendo l’esperimento simulato più e più volte, si ottengono risultati leggermente diversi ogni volta ( Figura 2C): la distribuzione delle informazioni calcolata da \(N\)= 40 campioni è centrata su 0,202 bit e non sul valore reale di 0 bit. Ciò dimostra che la stima delle informazioni reciproche soffre di pregiudizi di campionamento limitati. Maggiore è il numero di campioni, minori sono le fluttuazioni delle probabilità stimate e, di conseguenza, minore è il bias di campionamento limitato. Ad esempio, con \(N\)= 200 campioni; (100 campioni per ogni valore di \(x\ ;\) Figura 2D-F), il bias di campionamento limitato delle informazioni reciproche è 0,033 bit. Problemi simili si applicano anche alle misure delle relazioni causali come la causalità di Granger e l’entropia di trasferimento. Si noti che il bias di campionamento limitato sorge perché l’informazione reciproca è una funzione non lineare delle probabilità. Le probabilità stesse non sarebbero influenzate da un bias di campionamento limitato, perché avrebbero una media delle probabilità reali su molte ripetizioni dell’esperimento con un numero finito di dati.

Il bias di campionamento limitato può essere corretto calcolando analiticamente il suo valore approssimato e sottraendolo, o utilizzando informazioni preliminari sulle distribuzioni di probabilità sottostanti per ridurre le loro fluttuazioni statistiche di campionamento (Panzeri et al. 2007).

Bias di campionamento nelle neuroscienze

Negli ultimi anni c’è stato un crescente interesse per l’effetto del bias di campionamento e del bias di campionamento limitato nelle neuroscienze. Un problema importante nelle neuroscienze sensoriali è capire come le reti di neuroni rappresentano e scambiano informazioni sensoriali per mezzo del loro modello coordinato di risposta agli stimoli. Un approccio empirico ampiamente utilizzato a questo problema è quello di registrare in modo extracellulare i potenziali d’azione emessi dai neuroni. Gli elettrodi extracellulari sono spesso collocati in una posizione del cervello selezionata perché possono essere rilevati potenziali di azione. È riconosciuto che questa procedura può influenzare il campionamento verso neuroni più grandi (emettendo segnali più facili da rilevare) e verso la maggior parte dei neuroni attivi (Shoham et al. 2006). Ciò è in qualche modo correlato al problema del “campionamento di convenienza” discusso sopra. I neuroscienziati hanno maggiori probabilità di segnalare il comportamento di quei neuroni che sono più facilmente (“convenientemente”) osservati con i metodi a loro disposizione. Correggere questo bias di campionamento richiede la registrazione anche da neuroni più piccoli e meno attivi e la valutazione, utilizzando vari tipi di informazioni anatomiche e funzionali, delle relative distribuzioni di diversi tipi di popolazioni neurali. Le implicazioni di questo problema di campionamento e i modi per tenerne conto sono discussi in (Shoham et al. 2006). La limited di campionamento bias dà problemi nella determinazione del rapporto causale tra gli stimoli sensoriali e alcune caratteristiche della popolazione neuronale risposte, perché può aumentare artificialmente lo scambio reciproco di informazioni disponibili nel complesso caratterizzazioni delle risposte neuronali (come quelli a base di precisi tempi di potenziali d’azione) sulle informazioni disponibili nel più semplice caratterizzazione dell’attività neuronale (come quelle che trascurare i dettagli della struttura temporale della risposta neuronale). Le implicazioni di questo problema di campionamento e i modi per correggerlo sono discussi in (Panzeri et al. 2007).

Related Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *