Bias de eșantionare

activitate Post-publicare

Curator: Cesare Magri

colaboratori:
0.33 –

Ludovico Carraro

0.33 –

Eugene M. Izhikevich

0.33 –

Stefano Panzeri

0.17 –

Nick Orbeck

eșantionarea părtinitoare înseamnă că eșantioanele unei variabile stocastice care sunt colectate pentru a determina distribuția acesteia sunt selectate incorect și nu reprezintă distribuția adevărată din motive non-aleatorii. Să luăm în considerare un exemplu specific: am putea dori să prezicem rezultatul alegerilor prezidențiale prin intermediul unui sondaj de opinie. Întrebarea a 1000 de alegători despre intențiile lor de vot poate oferi o predicție destul de precisă a câștigătorului probabil, dar numai dacă eșantionul nostru de 1000 de alegători este ‘reprezentativ’ pentru electorat în ansamblu (adică imparțial). Dacă sondăm doar opinia a 1000 de studenți albi din clasa de mijloc, atunci punctele de vedere ale multor părți importante ale electoratului în ansamblu (minorități etnice, persoane în vârstă, muncitori cu guler albastru) sunt susceptibile de a fi subreprezentate în eșantion, iar capacitatea noastră de a prezice rezultatul alegerilor din acel eșantion este redusă.într-un eșantion imparțial, diferențele dintre eșantioanele prelevate dintr-o variabilă aleatorie și distribuția sa reală sau diferențele dintre eșantioanele de unități dintr-o populație și întreaga populație pe care o reprezintă ar trebui să rezulte doar din întâmplare. Dacă diferențele lor nu se datorează doar întâmplării, atunci există o părtinire de eșantionare. Tendința de eșantionare apare adesea deoarece anumite valori ale variabilei sunt sistematic subreprezentate sau suprareprezentate în ceea ce privește distribuția adevărată a variabilei (ca în exemplul nostru de sondaj de opinie de mai sus). Datorită naturii sale consecvente, prejudecata eșantionării duce la o denaturare sistematică a estimării distribuției probabilității eșantionate. Această denaturare nu poate fi eliminată prin creșterea numărului de eșantioane de date și trebuie corectată prin intermediul unor tehnici adecvate, dintre care unele sunt discutate mai jos. Cu alte cuvinte, sondarea a încă 1000 de studenți albi nu va îmbunătăți puterea predictivă a sondajului nostru de opinie, dar sondarea a 1000 de persoane alese la întâmplare din lista electorală ar face-o. Evident, un eșantion părtinitor poate cauza probleme în măsura funcționalelor de probabilitate (de ex., varianța sau entropia distribuției), deoarece orice statistică calculată din acel eșantion are potențialul de a fi eronată în mod constant.

  • 1 Cauzele de prelevare de probe prejudecată
  • 2 corectarea și reducerea de prelevare de probe prejudecată
  • 3 prelevare de probe prejudecată, eroare de eșantionare, părtinire a funcției de probabilitate, și prejudecată de eșantionare limitată
  • 4 efectul de eșantionare limitată asupra determinării relațiilor statistice și cauzale
  • 5 prelevare de probe prejudecată în neuroștiințe
  • 6 referințe
  • 7 link-uri externe
  • 8 a se vedea, de asemenea,

cauzele de eșantionare părtinire

o cauză comună de eșantionare părtinire constă în proiectarea studiului sau în colectarea datelor procedură, ambele putând favoriza sau defavoriza colectarea datelor de la anumite clase sau persoane sau în anumite condiții. Tendința de eșantionare este, de asemenea, deosebit de proeminentă ori de câte ori cercetătorii adoptă strategii de eșantionare bazate pe judecată sau comoditate, în care criteriul utilizat pentru selectarea eșantioanelor este cumva legat de variabilele de interes. De exemplu, referindu-se din nou la exemplul sondajului de opinie, un cercetător academic care colectează date de opinie poate alege, din cauza comodității, să colecteze opinii mai ales de la studenți, deoarece se întâmplă să locuiască în apropiere, iar acest lucru va influența în continuare eșantionarea spre opinia predominantă în clasa socială care trăiește în cartier.

Figura 1: posibile surse de părtinire care apar în selectarea unui eșantion dintr-o populație.

în științele sociale și economice, extragerea eșantioanelor aleatorii necesită de obicei un cadru de eșantionare, cum ar fi lista unităților întregii populații sau unele informații auxiliare privind unele caracteristici cheie ale populației țintă care urmează să fie eșantionate. De exemplu, efectuarea unui studiu despre școlile primare dintr-o anumită țară necesită obținerea unei liste a tuturor școlilor din țară, din care poate fi extras un eșantion. Cu toate acestea, utilizarea unui cadru de eșantionare nu împiedică neapărat părtinirea eșantionării. De exemplu, este posibil să nu se determine corect populația țintă sau să se utilizeze informații învechite și incomplete, excluzând astfel secțiuni ale populației țintă. În plus, chiar și atunci când cadrul de eșantionare este selectat în mod corespunzător, părtinirea eșantionării poate apărea din unitățile de eșantionare care nu răspund (de exemplu, anumite clase de subiecți ar putea fi mai susceptibile de a refuza să participe sau pot fi mai greu de contactat etc.) Non-răspunsurile sunt deosebit de susceptibile de a provoca părtinire ori de câte ori motivul non-răspunsului este legat de fenomenul studiat. Figura 1 ilustrează modul în care neconcordanțele dintre Cadrul de eșantionare și populația țintă, precum și non-răspunsurile, ar putea influența eșantionul.

în experimentele din științele fizice și biologice, tendința de eșantionare apare adesea atunci când variabila țintă care trebuie măsurată în timpul experimentului (de exemplu, energia unui sistem fizic) este corelată cu alți factori (de exemplu, temperatura sistemului) care sunt menținute fixe sau limitate într-un interval controlat în timpul experimentului. Luați în considerare, de exemplu, determinarea distribuției probabilității vitezei tuturor mașinilor pe drumurile britanice în orice moment într-o anumită zi. Viteza este cu siguranță legată de locație: prin urmare, măsurarea vitezei numai în anumite tipuri de locații poate influența eșantionul. De exemplu, dacă toate măsurile sunt luate la intersecțiile aglomerate din Centrul orașului, distribuția eșantionată a vitezei mașinilor nu va fi reprezentativă pentru mașinile din Marea Britanie și va fi puternic părtinitoare față de viteze lente, deoarece neglijează mașinile care circulă pe autostrăzi și pe alte drumuri rapide. Este important de menționat că o denaturare sistematică a unei distribuții eșantionate a unei variabile aleatorii poate rezulta și din alți factori decât părtinirea eșantionării, cum ar fi o eroare sistematică în instrumentele utilizate pentru colectarea datelor eșantionului. Având în vedere din nou exemplul distribuției vitezei mașinilor în Marea Britanie și să presupunem că experimentatorul are acces la citirea simultană a vitezometrelor plasate pe fiecare mașină, astfel încât să nu existe o părtinire de eșantionare. Dacă majoritatea vitezometrelor sunt reglate pentru a supraestima viteza și pentru a o supraestima mai mult la viteză mai mare, atunci distribuția eșantionată rezultată va fi părtinitoare față de viteze mari.

corectarea și reducerea prejudecății de eșantionare

pentru a reduce prejudecata de eșantionare, cele mai importante două etape la proiectarea unui studiu sau a unui experiment sunt (i) evitarea judecății sau a eșantionării convenabile (ii) pentru a se asigura că populația țintă este definită în mod corespunzător și că cadrul eșantionului se potrivește cât mai mult posibil. Atunci când resursele finite sau motivele de eficiență limitează posibilitatea eșantionării întregii populații, ar trebui să se aibă grijă ca populațiile excluse să nu difere de cea globală în ceea ce privește statisticile care trebuie măsurate. În științele sociale, sondajele reprezentative ale populației nu sunt cel mai frecvent eșantioane aleatorii simple, ci urmează modele de eșantioane mai complexe (Cochran 1977). De exemplu, într-un sondaj tipic de uz casnic un eșantion de gospodării este selectat în două etape: într-o primă etapă există o selecție de sate sau părți de orașe (cluster) și într-o a doua etapă este selectat un număr stabilit de gospodării în cadrul aceluiași cluster. Atunci când se adoptă astfel de modele complexe de eșantioane, este esențial să se asigure că informațiile din cadrul eșantionului sunt utilizate în mod corespunzător și că probabilitatea și selecția aleatorie sunt puse în aplicare și documentate în fiecare etapă a procesului de eșantionare. De fapt, astfel de informații vor fi esențiale pentru a calcula estimări imparțiale pentru populație folosind ponderile de eșantionare (inversul probabilității de selecție) și luând în considerare proiectarea eșantionării pentru a calcula corect eroarea de eșantionare. În modelele complexe de eșantioane, eroarea de eșantionare va fi întotdeauna mai mare decât în eșantioanele aleatorii simple (Cochran 1977).

ori de câte ori cadrul de eșantionare include unități care nu mai există (de exemplu, deoarece cadrele de eșantionare sunt incorecte și depășite), va fi imposibil să se obțină eșantioane de la astfel de unități inexistente. Această situație nu influențează estimările, cu condiția ca astfel de cazuri să nu fie înlocuite prin metode non-aleatorii și ca ponderile inițiale de eșantionare să fie ajustate în mod corespunzător pentru a lua în considerare astfel de imperfecțiuni ale cadrului eșantionului (cu toate acestea, imperfecțiunile cadrului eșantionului au în mod clar implicații asupra costurilor și, dacă dimensiunea eșantionului este redusă, acest lucru influențează și dimensiunea erorii de eșantionare).

soluțiile la prejudecată datorate non-răspunsului sunt mult mai articulate și pot fi, în general, împărțite în soluții ex-ante și ex-post (Groves și colab. 1998). Soluțiile Ex-ante încearcă să prevină și să minimizeze lipsa de răspuns în diferite moduri (de exemplu, instruirea specifică a enumeratorilor, mai multe încercări de a intervieva respondentul etc.) întrucât soluțiile ex-post încearcă să adune informații auxiliare despre non-respondenți, care sunt apoi utilizate pentru a calcula o probabilitate de răspuns pentru diferite subgrupuri de populație și, prin urmare, date de răspuns în greutate pentru inversul unei astfel de probabilități sau, alternativ, unele post-stratificare și calibrare.

părtinire de eșantionare, eroare de eșantionare, părtinire a funcției de probabilitate și părtinire limitată de eșantionare

conceptul de părtinire de eșantionare nu trebuie confundat cu alte concepte conexe, dar distincte, cum ar fi „eroare de eșantionare”, „părtinire a unei probabilități funcționale” și „părtinire limitată de eșantionare”. Eroarea de eșantionare a unei funcții a distribuției probabilității (cum ar fi varianța sau entropia distribuției) este diferența dintre estimarea funcțională a probabilității calculată pe distribuția eșantionată și valoarea corectă a funcționalității calculată pe distribuția adevărată. Părtinirea unei funcții a unei distribuții de probabilitate este definită ca valoarea așteptată a erorii de eșantionare. Părtinirea eșantionării poate duce la o părtinire a unei probabilități funcționale. Cu toate acestea, cele două concepte nu sunt echivalente.

o prejudecată poate apărea atunci când se măsoară o funcționalitate neliniară a probabilităților dintr-un număr limitat de probe experimentale chiar și atunci când aceste probe sunt culese cu adevărat aleatoriu din populația subiacentă și, prin urmare, nu există nicio prejudecată de eșantionare. Această prejudecată se numește „prejudecată limitată de eșantionare”. Vom da mai jos un exemplu de părtinire limitată de eșantionare a informațiilor reciproce.

efectul eșantionării limitate asupra determinării relațiilor statistice și cauzale

\(\tag{1}I (X;Y) = \ sum_{X,Y} P(x,y)\, log_2 \frac{P(X,y)} {P(x)\cdot P(y)}\)

cu toate acestea, în practică poate fi dificil de măsurat\ (I(X;Y)\) deoarece valorile exacte ale probabilităților\ (P(x), P(y) și P(X,y)\) sunt de obicei necunoscute. În principiu, poate fi ușor să estimăm aceste probabilități din distribuțiile de frecvență observate în eșantioane experimentale, dar acest lucru duce de obicei la estimări părtinitoare ale \(I(X;Y)\ ,\) chiar dacă eșantioanele utilizate pentru estimarea \(P(x), P(y) și P(x,y)\) sunt ele însele eșantioane imparțiale, reprezentative ale distribuțiilor subiacente ale \(X\) și \(Y\).\ ) Acest tip particular de prejudecată se numește „prejudecată limitată de eșantionare” și este definit ca diferența dintre valoarea așteptată a probabilității funcționale calculată din distribuțiile de probabilitate estimate cu eșantioane \(N\) și valoarea sa calculată din distribuțiile de probabilitate adevărate.

Figura 2: prejudecata limitată de eșantionare. Simularea unui sistem” neinformativ ” al cărui răspuns discret y este distribuit cu o distribuție uniformă cuprinsă între 1 și 10, indiferent de care dintre cele două valori ale unei variabile explicative presupuse x au fost prezentate. Exemple de histograme empirice de probabilitate de răspuns (linii solide roșii) eșantionate din 40 și 200 de observații (rândul de sus și respectiv de jos) sunt prezentate în coloanele din stânga și Centrală (răspunsuri la x = 1 și respectiv x = 2). Linia orizontală punctată neagră este adevărata distribuție a răspunsului. Coloana din dreapta arată (ca histograme albastre) distribuția (peste 5000 de simulări) a valorilor informațiilor reciproce obținute cu 40 (sus) și respectiv 200 (jos) observații. Pe măsură ce numărul de observații crește, tendința limitată de eșantionare scade. Linia verticală verde punctată din coloanele din dreapta indică adevărata valoare a informațiilor reciproce purtate de sistemul simulat (care este egal cu 0 biți).

cu titlu de exemplu, luați în considerare o variabilă de răspuns ipotetică \(Y\) care este distribuită uniform în intervalul 1-10 și o „variabilă explicativă” \(X\) care poate presupune valori fie de 1, fie de 2. Să presupunem că acestea sunt în realitate complet independente una de cealaltă și, prin urmare, observarea valorilor lui \(x\) nu poate ajuta la prezicerea valorilor probabile ale \(y\ .Cu toate acestea, un experimentalist care caută posibile relații între \(X\) și \(Y\) nu știe acest lucru. În acest caz, adevărata probabilitate condiționată \(P(y|x)\) este 0.1(Figura 2a și figura 2b, linie punctată neagră) pentru toate combinațiile de \(x\)și \(y\ ,\) ceea ce înseamnă că \(P(y)\) este, de asemenea, 0,1; în consecință, adevărata valoare a informațiilor reciproce este nulă. Figura 2a și figura 2b prezintă frecvențe experimentale de observare (curbe roșii) obținute dintr-un experiment simulat cu \(N\)= 40 de probe (20 de probe pentru fiecare valoare a \(x\)). În acest exemplu simulat, eșantioanele au fost prelevate cu adevărat aleatoriu și corect din distribuțiile de probabilitate subiacente și, prin urmare, nu a existat o prejudecată de eșantionare. Cu toate acestea, datorită eșantionării limitate, probabilitățile estimate (linia roșie din Figura 2a și figura 2b) diferă semnificativ de la 0,1 și una de cealaltă, iar estimarea informațiilor reciproce obținute prin conectarea estimărilor obținute experimental la formula de mai sus este non-nulă (0,2 biți). Repetând experimentul simulat din nou și din nou, se obțin rezultate ușor diferite de fiecare dată ( figura 2c): distribuția informațiilor calculată din \(N\)= 40 eșantioane este centrată la 0,202 biți – și nu la adevărata valoare a 0 biți. Acest lucru arată că estimarea informațiilor reciproce suferă de o prejudecată limitată de eșantionare. Cu cât este mai mare numărul de eșantioane, cu atât sunt mai mici fluctuațiile probabilităților estimate și, în consecință, cu atât este mai mică tendința limitată de eșantionare. De exemplu, cu \(N\)= 200 eșantioane; (100 eșantioane pentru fiecare valoare a \(x\ ;\) figura 2D-F), prejudecata limitată de eșantionare a informațiilor reciproce este de 0,033 biți. Probleme similare se aplică și măsurilor relațiilor cauzale, cum ar fi cauzalitatea Granger și entropia de transfer. Rețineți că prejudecata limitată de eșantionare apare deoarece informația reciprocă este o funcție neliniară a probabilităților. Probabilitățile în sine nu ar fi afectate de o prejudecată limitată de eșantionare, deoarece ar media probabilităților adevărate pe parcursul multor repetări ale experimentului cu un număr finit de date.

prejudecata limitată de eșantionare poate fi corectată calculând analitic valoarea sa aproximată și scăzând-o sau folosind informații anterioare despre distribuțiile de probabilitate subiacente pentru a reduce fluctuațiile lor statistice de eșantionare (Panzeri și colab. 2007).

prejudecata de eșantionare în neuroștiințe

În ultimii ani a existat un interes tot mai mare în efectul prejudecății de eșantionare și al prejudecății limitate de eșantionare în neuroștiințe. O problemă importantă în neuroștiința senzorială este înțelegerea modului în care rețelele de neuroni reprezintă și schimbă informații senzoriale prin intermediul modelului lor coordonat de răspuns la stimuli. O abordare empirică utilizată pe scară largă a acestei probleme este înregistrarea extracelulară a potențialelor de acțiune emise de neuroni. Electrozii extracelulari sunt adesea plasați într-o locație a creierului selectată, deoarece pot fi detectate potențiale de acțiune. Este recunoscut faptul că această procedură poate influența eșantionarea către neuroni mai mari (care emit semnale mai ușor de detectat) și către majoritatea neuronilor activi (Shoham și colab. 2006). Acest lucru este oarecum legat de problema eșantionării convenabile discutată mai sus. Neurologii sunt mai predispuși să raporteze comportamentul acelor neuroni care sunt cel mai ușor („convenabil”) observați cu metodele de care dispun. Corectarea acestei prejudecăți de eșantionare necesită înregistrarea și de la neuroni mai mici și mai puțin activi și evaluarea, folosind diferite tipuri de informații anatomice și funcționale, a distribuțiilor relative ale diferitelor tipuri de populații neuronale. Implicațiile acestei probleme de eșantionare și modalitățile de a o lua în considerare sunt discutate în (Shoham și colab. 2006). Prejudecata limitată de eșantionare dă probleme în determinarea relației cauzale dintre stimulii senzoriali și anumite trăsături ale răspunsurilor populației neuronale, deoarece poate crește artificial informațiile reciproce disponibile în caracterizările complexe ale răspunsurilor neuronale (cum ar fi cele bazate pe timpii exacți ai potențialelor de acțiune) asupra informațiilor disponibile în caracterizarea mai simplă a activității neuronale (cum ar fi cele care neglijează detaliile structurii temporale a răspunsului neuronal). Implicațiile acestei probleme de eșantionare și modalitățile de corectare a acesteia sunt discutate în (Panzeri și colab. 2007).

Related Posts

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *