a Kurátor: Cesare Magri
Ludovico Carraro
Eugene M. Izhikevich
Stefano Panzeri
Nick Orbeck
Mintavételi torzítás azt jelenti, hogy a minták egy sztochasztikus változó, hogy gyűjtik, hogy meghatározza, a forgalmazási vagy a kiválasztott tévesen és nem jelentenek valódi eloszlás, mert nem véletlenszerű okok miatt. Vegyünk egy konkrét példát: talán egy közvélemény-kutatás segítségével szeretnénk megjósolni az elnökválasztás kimenetelét. Az 1000 szavazók megkérdezése a szavazási szándékukról meglehetősen pontos előrejelzést adhat a valószínű győztesről, de csak akkor, ha az 1000 szavazóból álló mintánk a választók egészének “képviselője” (azaz elfogulatlan). Ha csak 1000 fehér középosztálybeli egyetemista véleményét kérdezzük meg, akkor a választók egészének számos fontos részének (Etnikai Kisebbségek, idős emberek, kékgalléros munkavállalók) nézetei valószínűleg alulreprezentáltak a mintában, és csökkent a képességünk arra, hogy megjósoljuk a választás kimenetelét ebből a mintából.
egy elfogulatlan minta különbség a minták egy véletlen változó, illetve a valódi engedély, vagy a különbségeket a mintákat egységek a lakosság, mind a teljes lakosság jelentenek, várhatóan csak a lehetőséget. Ha különbségeik nem csak a véletlennek köszönhetők, akkor van egy mintavételi elfogultság. A mintavételi torzítás gyakran azért merül fel, mert a változó bizonyos értékei szisztematikusan alulreprezentáltak vagy túlreprezentáltak a változó valódi eloszlása tekintetében (mint a fenti közvélemény-kutatás példánkban). Következetes jellege miatt a mintavételi torzítás a mintavételezett valószínűségi eloszlás becslésének szisztematikus torzulásához vezet. Ez a torzítás nem szüntethető meg az adatminták számának növelésével, és azokat megfelelő technikákkal kell korrigálni, amelyek közül néhányat az alábbiakban tárgyalunk. Más szóval, a további 1000 fehér főiskolai hallgató szavazása nem javítja a közvélemény-kutatás előrejelző erejét,de a választási névjegyzékből véletlenszerűen kiválasztott 1000 személy szavazása. Nyilvánvaló, hogy egy elfogult minta problémákat okozhat a valószínűségi függvény mérésében (pl., a szórás vagy az eloszlás entrópiája), mivel az adott mintából kiszámított statisztikák következetesen hibásak lehetnek.
- Tartalom
- Oka a mintavételi torzítás
- A mintavételi torzítás korrekciója és csökkentése
- mintavételi torzítás, mintavételi hiba, valószínűségi függvény torzítása és korlátozott mintavételi torzítás
- A korlátozott mintavétel hatása a statisztikai és okozati összefüggések meghatározására
- Mintavételi torzítás neuroscience
Tartalom
- 1 Okoz a mintavételi torzítás
- 2 Korrekció csökkentése, valamint a mintavételi torzítás
- 3 Mintavételi torzítás, mintavételi hiba, torzítás a valószínűség függvény, csak az mintavételi torzítás
- 4 A hatás korlátozott mintavétel a meghatározása statisztikai, valamint ok-okozati kapcsolatok
- 5 Mintavételi torzítás neuroscience
- 6 Hivatkozások
- 7 Külső hivatkozások
- 8 Lásd még a
Oka a mintavételi torzítás
Egy gyakori oka a mintavételi torzítás abban rejlik, hogy a design a tanulmány, illetve az adatgyűjtés eljárás, mindkettő elősegítheti vagy megtagadhatja az adatok gyűjtését bizonyos osztályokból vagy egyénekből vagy bizonyos körülmények között. A mintavételi elfogultság akkor is különösen kiemelkedő, amikor a kutatók ítélet vagy kényelem alapján mintavételi stratégiákat fogadnak el, amelyekben a minták kiválasztásához használt kritérium valamilyen módon kapcsolódik az érdeklődésre számot tartó változókhoz. Például, hivatkozva ismét a közvélemény-kutatás például, egy tudományos kutató gyűjti véleményadatok dönthet, mert a kényelem, gyűjteni vélemények többnyire főiskolai hallgatók, mert történetesen a közelben élő, és ez tovább torzítja a mintavétel felé a vélemény elterjedt a társadalmi osztály él a környéken.
1.ábra: a populációból származó minta kiválasztásánál előforduló lehetséges torzítási források.
A gazdasági-társadalmi tudományok, kivonás véletlenszerű minták általában megköveteli a mintavételi keret, mint például a lista az egység, az egész lakosság, vagy néhány kiegészítő információt néhány kulcsfontosságú jellemzők a célpopuláció, hogy a mintába. Például egy adott ország általános iskoláiról szóló tanulmány elkészítéséhez meg kell szerezni az ország összes iskolájának listáját, ahonnan mintát lehet kivonni. A mintavételi keret használata azonban nem feltétlenül akadályozza meg a mintavételi elfogultságot. Például nem lehet helyesen meghatározni a célcsoportot, vagy elavult és hiányos információkat használni, ezáltal kizárva a célcsoport egyes részeit. Továbbá, még akkor is, ha a mintavételi keret megfelelően van kiválasztva, a mintavételi torzítás a nem reagáló mintavételi egységekből származhat (például bizonyos tantárgycsoportok nagyobb valószínűséggel utasíthatják el a részvételt, vagy nehezebb kapcsolatba lépni stb.) A nem válaszadás különösen valószínű, hogy elfogultságot okoz, amikor a nem válasz oka a vizsgált jelenséghez kapcsolódik. Az 1. ábra azt mutatja be, hogy a mintavételi keret és a célpopuláció közötti eltérések, valamint a nem válaszok Hogyan torzíthatják a mintát.
a fizikai és biológiai tudományok kísérleteiben a mintavételi torzítás gyakran akkor fordul elő, amikor a kísérlet során mérendő célváltozó (például egy fizikai rendszer energiája) korrelál más tényezőkkel (például a rendszer hőmérsékletével), amelyeket a kísérlet során rögzített vagy ellenőrzött tartományon belül tartanak. Fontolja meg például az összes autó sebességének valószínűségi eloszlásának meghatározását a brit utakon bármikor egy bizonyos nap alatt. A sebesség határozottan kapcsolódik a helyhez: ezért a sebesség mérése csak bizonyos típusú helyeken torzíthatja a mintát. Például, ha az összes intézkedések a forgalmas közlekedési csomópontokban, a város központjában, a mintában szereplő megoszlása autó sebessége nem lesz reprezentatív, nagy-Britannia autók lesz erősen elfogult felé lassú sebesség, mert elhanyagolja autók utazás autópályán, valamint más, gyorsan utakon. Fontos megjegyezni, hogy egy véletlenszerű változó mintavételi eloszlásának szisztematikus torzulása a mintavételi torzítástól eltérő tényezőkből is származhat, például a mintavételi adatok gyűjtésére használt eszközök szisztematikus hibájából. Figyelembe véve ismét a példa a megoszlása a sebesség autók Nagy-Britanniában, és tegyük fel, hogy a kísérletező hozzáférhet az egyidejű leolvasása sebességmérők elhelyezett minden autó, így nincs mintavételi torzítás. Ha a legtöbb sebességmérőt úgy hangolják be, hogy túlbecsüljék a sebességet, és nagyobb sebességgel túlbecsüljék, akkor az így kapott mintavételi Eloszlás a nagy sebesség felé torzul.
A mintavételi torzítás korrekciója és csökkentése
a mintavételi torzítás csökkentése érdekében a vizsgálat vagy kísérlet tervezésekor a két legfontosabb lépés (i) az ítélet vagy a kényelmi mintavétel elkerülése (ii) annak biztosítása érdekében, hogy a célpopuláció megfelelően meg legyen határozva, és hogy a mintakeret a lehető legnagyobb mértékben megfeleljen. Ha a véges erőforrások vagy a hatékonysági okok korlátozzák a teljes populáció mintavételének lehetőségét, ügyelni kell arra, hogy a kieső populációk a mérendő statisztikák tekintetében ne térjenek el a teljes populációtól. A társadalomtudományokban a népesség reprezentatív felmérései leggyakrabban nem egyszerű véletlenszerű minták, hanem összetettebb mintatervek (Cochran 1977). Például egy tipikus háztartási felmérésben a háztartások mintáját két szakaszban választják ki: az első szakaszban falvakat vagy városrészeket (klasztert) választanak ki, a második szakaszban pedig egy meghatározott számú háztartást választanak ki ugyanazon klaszteren belül. Az ilyen összetett mintatervek elfogadásakor elengedhetetlen annak biztosítása, hogy a mintakeret-információkat megfelelően használják, valamint hogy a valószínűség és a véletlenszerű kiválasztás a mintavételi folyamat minden szakaszában megvalósuljon és dokumentált legyen. Valójában ezek az információk elengedhetetlenek ahhoz, hogy a mintavételi súlyok (a kiválasztás valószínűségének inverze) alkalmazásával a lakosság számára elfogulatlan becsléseket lehessen kiszámítani, és figyelembe lehessen venni a mintavételi tervet a mintavételi hiba megfelelő kiszámítása érdekében. Komplex mintatervek esetén a mintavételi hiba mindig nagyobb lesz, mint az egyszerű véletlenszerű mintákban (Cochran 1977).
Ha a mintavételi keret olyan egységeket tartalmaz, amelyek már nem léteznek (pl. mivel a mintakeretek hibásak és elavultak), lehetetlen lesz ilyen nem létező egységekből mintát venni. Ez a helyzet nem elfogultság, a becslések szerint, feltéve, hogy az ilyen esetek nem helyettesített használata nem véletlen módszerek, valamint az eredeti mintavételi súlyok megfelelően beállítani, hogy figyelembe vegyék az ilyen mintavételi keret hiányosságai (mindazonáltal mintavételi keret hiányosságai egyértelműen költségek következményei, illetve, ha a minta mérete csökken, ez is befolyásolja a méret a mintavételi hiba).
a nem reagálás miatti torzítás megoldásai sokkal tagoltabbak, és általában előzetes és utólagos megoldásokra oszthatók (Groves et al. 1998). Az előzetes megoldások különböző módon próbálják megakadályozni és minimalizálni a válaszadás elmaradását (például a felsorolók speciális képzése, a válaszadó meghallgatására tett számos kísérlet stb.).) mivel ex-post oldatok próbálja összegyűjteni kiegészítő információt nem-a válaszadók, amely akkor kiszámításához használt valószínűséggel választ a különböző társadalmi alcsoportok, így újra súly válasz adatokat az inverz ilyen valószínűsége, vagy pedig egy utólagos rétegezés, illetve kalibrálás.
mintavételi torzítás, mintavételi hiba, valószínűségi függvény torzítása és korlátozott mintavételi torzítás
a mintavételi torzítás fogalmát nem szabad összekeverni más kapcsolódó, de különálló fogalmakkal, például “mintavételi hiba”, “valószínűségi funkcionális torzítás” és “korlátozott mintavételi elfogultság”. A valószínűségi eloszlás funkcionális elemeinek mintavételi hibája (mint például a variancia vagy az eloszlás entrópiája) a mintában szereplő eloszláson számított valószínűség becslése és a tényleges eloszláson számított funkcionális érték közötti különbség. A valószínűségi eloszlás funkcionális torzítását a mintavételi hiba várható értékeként definiáljuk. Mintavételi torzítás vezethet elfogultság valószínűség funkcionális. A két fogalom azonban nem egyenértékű.
torzítás akkor keletkeznek, amikor a mérési egy nem lineáris, funkcionális, a valószínűségek a korlátozott számú kísérleti mintákat is, ha ezek a minták valóban véletlenszerűen kiválasztott, a mögöttes lakosság ennélfogva nem mintavételi torzítás. Ezt az elfogultságot “korlátozott mintavételi elfogultságnak”nevezik. Az alábbiakban bemutatunk egy példát a kölcsönös információk korlátozott mintavételi elfogultságáról.
A korlátozott mintavétel hatása a statisztikai és okozati összefüggések meghatározására
\(\tag{1}i (X;Y) = \ sum_{x,y} P(x, y)\, log_2 \frac{P(x, y)}{P(x) \cdot p(y)}\)
a gyakorlatban azonban nehéz lehet mérni \(I(X;Y)\) mivel a valószínűségek pontos értékei \(p(x), P(y) és P(X,y)\) általában ismeretlenek. Elvileg könnyű lehet megbecsülni ezeket a valószínűségeket a megfigyelt frekvenciaeloszlásokból a kísérleti mintákban, de ez általában \(I(X;Y)\,\) elfogult becslésekhez vezet, még akkor is,ha a \(P(x), P(y) és P(x, y)\) becsléséhez használt minták maguk is elfogulatlan, reprezentatív minták a \(X\) és \(Y\ .\ ) Ezt a fajta torzítást “korlátozott mintavételi torzításnak” nevezzük, és úgy definiáljuk, mint a \(N\) mintákkal becsült valószínűségi eloszlásokból kiszámított valószínűségi funkcionális várható értéke közötti különbséget, valamint annak értékét a valódi valószínűségi eloszlásokból számítjuk ki.
2.ábra: a korlátozott mintavételi torzítás. Egy “nem informatív” rendszer szimulációja, amelynek diszkrét válaszát y egyenletes eloszlással osztják el 1-től 10-ig, függetlenül attól, hogy az X feltételezett magyarázó változó két értéke közül melyik került bemutatásra. A 40 és 200 megfigyelésből (a felső és az alsó sorban) vett empirikus válasz valószínűségi hisztogramok (vörös szilárd vonalak) példái a bal és a középső oszlopokban jelennek meg (válaszok x = 1, illetve x = 2-re). A fekete pontozott vízszintes vonal az igazi válaszeloszlás. A jobb oldali oszlopban (kék hisztogramként) a 40 (felső), illetve 200 (alsó) megfigyeléssel kapott kölcsönös információs értékek eloszlása (több mint 5000 szimuláció) látható. A megfigyelések számának növekedésével a korlátozott mintavételi torzítás csökken. A szaggatott zöld függőleges vonal a jobb oszlopokban a szimulált rendszer által szállított kölcsönös információk valódi értékét jelzi (ami 0 bitnek felel meg).
példaként tekintsünk egy hipotetikus válaszváltozót \ (Y\), amely egyenletesen oszlik el az 1-10 tartományban, valamint egy “magyarázó változót” \(X\), amely 1 vagy 2 értéket feltételezhet. Tegyük fel, hogy ezek a valóságban teljesen függetlenek egymástól, ezért a \(x\) értékeinek megfigyelése nem segíthet megjósolni a \(y\ valószínű értékeit .\ ) Azonban a \(X\) és \(Y\) közötti lehetséges kapcsolatokat kutató kísérletező nem tudja ezt. Ebben az esetben az igazi feltételes valószínűség \(p (y / x)\) 0.1(2a Ábra és 2B ábra, fekete pontozott vonal) a \(x\)és \(y\ ,\) minden kombinációjára, ami azt jelenti, hogy \(P (y)\) is 0.1; következésképpen a kölcsönös információk valódi értéke nulla. A 2A.ábra és a 2b. ábra A \(N\)= 40 mintával végzett szimulált kísérletből nyert kísérleti megfigyelési frekvenciákat(piros görbéket) mutat (20 mintát minden \(x\) értékre). Ebben a szimulált példában a mintákat valóban véletlenszerűen és helyesen vették ki az alapul szolgáló valószínűségi eloszlásokból, így nem volt mintavételi torzítás. A korlátozott mintavétel miatt azonban a becsült valószínűségek (a 2A. ábra vörös vonala és a 2b. ábra) jelentősen eltérnek egymástól 0,1-től, és a kísérletileg kapott becsléseknek a fenti képletbe történő beillesztésével kapott kölcsönös információbecslés Nem null (0,2 bit). A szimulált kísérlet újra és újra megismétlésével minden alkalommal kissé eltérő eredményeket kapunk( 2C ábra): a \(N\)= 40 mintából kiszámított információeloszlás 0,202 bitre van központosítva – nem pedig 0 bit valódi értékére. Ez azt mutatja,hogy a kölcsönös információbecslés korlátozott mintavételi elfogultságot szenved. Minél nagyobb a Minták száma, annál kisebb a becsült valószínűségek ingadozása, következésképpen annál kisebb a korlátozott mintavételi torzítás. Például a \(N\)= 200 mintával; (100 minta A \(x\ ;\) 2D-F ábra mindegyik értékéhez) a kölcsönös információk korlátozott mintavételi torzítása 0,033 bit. Hasonló problémák vonatkoznak az ok-okozati összefüggésekre is, mint például a Granger ok-okozati összefüggés és az átviteli entrópia. Vegye figyelembe, hogy a korlátozott mintavételi torzítás azért merül fel, mert a kölcsönös információ a valószínűségek nemlineáris funkciója. A valószínűségek magukat nem érinti a korlátozott mintavételi elfogultság, mert ők átlagosan a valódi valószínűségek felett sok ismétlés a kísérlet véges számú adat.
a korlátozott mintavételi torzítás korrigálható a becsült érték analitikus kiszámításával és kivonásával, vagy előzetes információk felhasználásával az alapul szolgáló valószínűségi eloszlásokról statisztikai mintavételi ingadozásaik csökkentése érdekében (Panzeri et al. 2007).
Mintavételi torzítás neuroscience
az elmúlt évben nőtt az érdeklődés a hatása mintavételi torzítás, valamint a korlátozott mintavételi torzítás neuroscience. Az érzékszervi idegtudomány egyik fontos problémája annak megértése, hogy az idegsejtek hálózatai hogyan képviselik és cserélik az érzékszervi információkat az ingerekre adott összehangolt válaszmintájuk révén. A probléma széles körben alkalmazott empirikus megközelítése az idegsejtek által kibocsátott akciós potenciál extracellulárisan történő rögzítése. Az extracelluláris elektródákat gyakran egy kiválasztott agyi helyre helyezik, mivel az akciópotenciálok kimutathatók. Felismerték, hogy ez az eljárás torzíthatja a mintavételt a nagyobb neuronok (könnyebb észlelni a jeleket) és a legaktívabb neuronok (Shoham et al. 2006). Ez némileg kapcsolódik a fent tárgyalt “kényelmi mintavétel” problémájához. Az idegtudósok nagyobb valószínűséggel jelentik azoknak a neuronoknak a viselkedését, amelyek a legkönnyebben (“kényelmesen”) megfigyelhetők a rendelkezésükre álló módszerekkel. Helyesbítéséről ez a mintavételi torzítás igényel felvétel is a kisebb, kevésbé aktív neuronok, majd értékeli, a különböző típusú anatómiai vagy funkcionális információt, a relatív eloszlása különböző típusú neurális lakosság. Ennek a mintavételi problémának a következményeit és annak figyelembevételének módjait a (Shoham et al. 2006). A korlátozott mintavételi torzítás ad problémák meghatározása során az ok-okozati összefüggés szenzoros ingerek, illetve bizonyos funkciók a neuronális lakosság válaszok, mert lehet, hogy mesterségesen növeljék a kölcsönös rendelkezésre álló információ komplex leírás a neuronális válaszok (például azok alapján, a pontos idejét a cselekvési lehetőségek) a rendelkezésre álló információk az egyszerűbb jellemzése a neuronális aktivitás (például azok, amelyek elhanyagolják a részleteket a temporális szerkezet a neuronális válasz). Ennek a mintavételi problémának a következményeit és annak kijavításának módjait a (Panzeri et al. 2007).