Kurátor: Cesare Magri
Ludovico Carraro
Eugene M. Izhikevich
Stefano Panzeri
Nick Orbeck
Sampling bias znamená, že vzorky stochastické proměnné, které jsou shromažďovány za účelem určení, jeho rozložení je vybrán nesprávně a nepředstavují skutečné rozdělení, protože non-náhodných důvodů. Podívejme se na konkrétní příklad: výsledek prezidentských voleb bychom mohli předpovídat pomocí průzkumu veřejného mínění. Ptal 1000 voličů o jejich hlasování úmysly může dát docela přesné predikce pravděpodobného vítěze, ale pouze tehdy, pokud náš vzorek 1000 voličů je „zástupce“ voličů jako celku (tj. objektivní). Pokud jsme jen anketa, názor, 1000 bílé střední třídy, vysokoškoláci, pak názory mnoha důležitých částí voličstva jako celku (etnické menšiny, starší lidé, dělníci) jsou pravděpodobně nedostatečně zastoupených ve vzorku, a naše schopnost předpovědět výsledek voleb z tohoto vzorku se snižuje.
V objektivní vzorek, rozdíly mezi vzorky odebrané z náhodné proměnné a její pravda distribuce, nebo rozdíly mezi vzorky jednotek z populace a celá populace představují, by měly vést pouze z náhody. Pokud jejich rozdíly nejsou způsobeny pouze náhodou, pak existuje zkreslení vzorkování. Vzorkovací zkreslení často vzniká, protože určité hodnoty proměnné jsou systematicky nedostatečně reprezentovány nebo nadměrně zastoupeny s ohledem na skutečné rozdělení proměnné (jako v našem příkladu průzkumu veřejného mínění výše). Vzhledem ke své konzistentní povaze vede zkreslení výběru k systematickému zkreslení odhadu rozdělení pravděpodobnosti ve vzorku. Toto zkreslení nelze odstranit zvýšením počtu vzorků údajů a musí být opraveno pomocí vhodných technik, z nichž některé jsou popsány níže. Jinými slovy, hlasování dalších 1000 bílých vysokoškoláků nezlepší prediktivní sílu našeho průzkumu veřejného mínění,ale hlasování 1000 jednotlivců vybraných náhodně z volebního seznamu by. Je zřejmé, že zkreslený vzorek může způsobit problémy v míře pravděpodobnostních funkcionálů (např., rozptylu nebo entropie distribuce), protože jakákoli statistika vypočtená z tohoto vzorku má potenciál být trvale Chybná.
Obsah
- 1 Příčiny sampling bias
- 2 Korekce a snížení odběru vzorků zaujatost
- 3 zaujatost odběru Vzorků, odběr vzorků chyba, bias pravděpodobnosti funkce, a omezený odběr vzorků zaujatost
- 4 účinek omezený odběr vzorků na stanovení statistické a kauzální vztahy
- 5 Vzorků zkreslení v nervovém systému
- 6 Odkazy
- 7 Externí odkazy
- 8 Viz také
Příčiny sampling bias
Častou příčinou sampling bias spočívá v návrhu studie nebo ve sběru dat postup, který může upřednostňovat nebo znevýhodňovat shromažďování údajů od určitých tříd nebo jednotlivců nebo za určitých podmínek. Vzorkování zaujatost je také zvláště prominentní, když vědci přijmou vzorkovací strategie založené na úsudku nebo pohodlí, ve kterém kritérium použité pro výběr vzorků nějak souvisí s proměnnými zájmu. Například, opět s odkazem na průzkum veřejného mínění například akademický výzkumník sbírá názor dat může vybrat, protože pohodlí, sbírat názory převážně z vysokoškolských studentů, protože oni náhodou žijí v okolí, a to bude dále zaujatost odběru vzorků k názoru, převládající ve společenské třídy žijící v okolí.
Obrázek 1: Možné zdroje zkreslení vyskytující se při výběru vzorku z populace.
V sociálních a ekonomických věd, získávání náhodných vzorků obvykle vyžaduje rámec odběru vzorků jako seznam jednotek z celé populace, nebo nějaké pomocné informace, na některé klíčové vlastnosti cílové populace, je třeba odebrat vzorky. Například provedení studie o základních školách v určité zemi vyžaduje získání seznamu všech škol v zemi, ze kterých lze vzorek extrahovat. Použití vzorkovacího rámce však nemusí nutně zabránit zkreslení vzorkování. Například může selhat správně určit cílovou populaci nebo použít zastaralé a neúplné informace, čímž se vyloučí části cílové populace. Kromě toho, i když rámec odběru vzorků je zvolena správně, sampling bias může vzniknout z non-citlivý vzorkovací jednotky (např. určité třídy předmětů by mohlo být více pravděpodobné, odmítnout účast nebo může být těžší kontakt atd.) Non-odpovědi jsou zvláště pravděpodobné, že způsobí zaujatost vždy, když důvod non-odpovědi souvisí se studovaným jevem. Obrázek 1 ilustruje, jak nesouladu mezi odběru vzorků a cílové populace, stejně jako non-reakce, by mohl zkreslení vzorku.
V pokusech ve fyzikálních a biologických vědách, sampling bias se často vyskytuje, když na cílové proměnné měřené v průběhu experimentu (např. energie fyzikální systém) je v korelaci s jinými faktory (např. teplotu systému), které jsou vedeny stanovena nebo omezena v kontrolovaném rozsahu během experimentu. Vezměme si například stanovení pravděpodobnostního rozdělení rychlosti všech automobilů na britských silnicích kdykoli během určitého dne. Rychlost rozhodně souvisí s umístěním: měření rychlosti pouze na určitých typech míst může vzorek zkreslit. Například, pokud jsou přijata veškerá opatření na frekventovaných dopravních uzlů v centru města, zařazených do distribuce auto rychlostí nebude zástupce britské vozy a bude silně zaujatý vůči pomalých rychlostech, protože to zanedbává, auta, cestování na dálnicích a dalších rychlostních komunikacích. Je důležité si uvědomit, že systematické zkreslení vzorku, rozdělení náhodné proměnné, může dojít také z jiných faktorů, než je vzorkování zkreslení, jako je systematická chyba v použité nástroje pro sběr vzorku údajů. Zvažuje opět příklad rozložení rychlosti aut v Británii, a předpokládám, že experimentátor má přístup k simultánní čtení tachometry umístěné na každé auto, tak, že neexistuje žádná zaujatost odběru vzorků. Pokud je většina rychloměrů naladěna tak, aby rychlost přeceňovala, a více ji přeceňovat při vyšší rychlosti, pak výsledné vzorkované rozdělení bude zkreslené směrem k vysokým rychlostem.
Korekce a snížení odběru vzorků zaujatost
snížit odběr vzorků zaujatost, dva nejdůležitější kroky při návrhu studie nebo experimentu jsou (i) aby se zabránilo rozsudku nebo pohodlí odběru vzorků, (ii) aby bylo zajištěno, že cílové populace správně definována a že vzorek rámu zápasy to stejně jako je to možné. Pokud omezené zdroje nebo důvody účinnosti omezují možnost výběru vzorku celé populace, je třeba dbát na to, aby se vyloučené populace nelišily od celkové populace, pokud jde o statistiku, která má být měřena. V sociálních vědách populace reprezentativní průzkumy nejčastěji nejsou jednoduché náhodné vzorky, ale následovat složitější vzory vzorků (Cochran 1977). Například, v typickém průzkumu domácnosti je vzorek domácností vybrán ve dvou fázích: v první fázi je výběr vesnic nebo částí měst (klastr) a ve druhé fázi je vybrán stanovený počet domácností v rámci stejného klastru. Při přijímání takových složitých návrhů vzorků je nezbytné zajistit, aby byly informace o rámci vzorku správně použity a aby pravděpodobnost a náhodný výběr byly implementovány a zdokumentovány v každé fázi procesu odběru vzorků. Ve skutečnosti, tyto informace budou nezbytné pro výpočet nestranné odhady pro populace pomocí vzorkování hmotnosti (inverzní pravděpodobnosti výběru) a s přihlédnutím k odběru vzorků tak, aby se správně vypočítat výběrové chyby. V komplexních vzorcích vzorků bude chyba vzorkování vždy větší než v jednoduchých náhodných vzorcích (Cochran 1977).
kdykoli vzorkovací rámec obsahuje jednotky, které již neexistují (např. protože vzorkovací rámce jsou nesprávné a zastaralé), nebude možné získat žádné vzorky z takových neexistujících jednotek. Tato situace není zkreslení odhadů, za předpokladu, že takové případy nejsou nahrazena pomocí non-náhodné metody, a že původní vzorkovací váhy jsou vhodně upraveny tak, aby zohledňovaly tyto vzorku rám nedokonalosti (nicméně vzorek rámu nedokonalosti jednoznačně náklady důsledky a pokud je velikost vzorku snižuje to také ovlivňuje velikost výběrové chyby).
Řešení zkreslení v důsledku non-response jsou mnohem členitější, a mohou být obecně rozděleny na ex-ante a ex-post řešení (Groves et al. 1998). Ex-ante řešení se snaží zabránit a minimalizovat non-odpověď různými způsoby (například specifické školení sčítačů, několik pokusů o rozhovor respondenta, atd.) vzhledem k tomu ex-post řešení pokuste se shromáždit pomocné informace o non-respondentů, které pak slouží k výpočtu pravděpodobnosti odezvy pro různé populační podskupiny, a tak re-hmotnost reakci data pro inverzní takové pravděpodobnosti, nebo alternativně post-stratifikace a kalibrace.
zaujatost odběru Vzorků, odběr vzorků chyba, bias pravděpodobnosti funkce, a omezený odběr vzorků zaujatost
koncepce vzorkování zkreslení by neměla být zaměňována s jinými související, ale odlišné pojmy jako „výběrové chyby“, „zaujatost pravděpodobnost funkční“ a „omezené sampling bias“. Výběrové chyby pro funkční rozdělení pravděpodobnosti (např. rozptyl nebo entropie distribuce) je rozdíl mezi odhad pravděpodobnosti funkční počítačová nad vzorku distribuce a správnou hodnotu funkční počítačová nad pravda distribuce. Zkreslení funkce rozdělení pravděpodobnosti je definováno jako očekávaná hodnota chyby vzorkování. Vzorkovací zkreslení může vést k zkreslení pravděpodobnostní funkčnosti. Tyto dva pojmy však nejsou rovnocenné.
zkreslení může nastat při měření nelineární funkční pravděpodobností z omezeného počtu experimentálních vzorků, i když jsou tyto vzorky jsou skutečně náhodně vybral ze základní populace, a tudíž neexistuje žádná zaujatost odběru vzorků. Toto zkreslení se nazývá „omezené zkreslení vzorkování“. Níže uvedeme příklad omezeného zkreslení vzorkování vzájemných informací.
vliv omezeného odběru vzorků na stanovení statistických a kauzálních vztahů
\(\tag{1}I (X;Y) = \sum_{x,y} P(x,y) \, log_2 \frac{P(x,y)}{P(x) \cdot P(y)}\)
Nicméně, v praxi to může být obtížné měřit \(I(X;Y)\), protože přesné hodnoty pravděpodobností \(P(x), P(y) a P(x,y)\) jsou obvykle neznámé. To může být snadné se v zásadě k odhadu těchto pravděpodobností z pozorované četnosti rozvodů v experimentální vzorky, ale to obvykle vede ke zkreslené odhady \(I(X;Y)\ ,\), i když vzorky použité pro odhad \(P(x), P(y) a P(x,y)\) jsou samy o sobě objektivní, reprezentativních vzorcích základní rozdělení \(X\) a \(Y\ .\) Tento druh zkreslení se nazývá „omezený odběr vzorků zaujatost“, a je definován jako rozdíl mezi očekávanou hodnotu pravděpodobnosti funkční vypočtena z rozdělení pravděpodobnosti odhadovaná s \(N\) vzorků, a jeho hodnota vypočítána ze skutečné rozdělení pravděpodobnosti.
Obrázek 2: omezené vzorkování zkreslení. Simulace „neinformativní“ systém, jehož diskrétní odezvy y je distribuován s rovnoměrným rozdělením v rozmezí od 1 do 10, bez ohledu na to, která ze dvou hodnot domnělého vysvětlující proměnné x byly prezentovány. Příklady empirických histogramů pravděpodobnosti odpovědi (červené plné čáry) odebraných ze 40 a 200 pozorování (horní a dolní řádek) jsou uvedeny v levém a středním sloupci(odpovědi na x = 1 a x = 2). Černá tečkovaná vodorovná čára je skutečné rozdělení odezvy. Pravý sloupec zobrazuje (jako modré histogramy) distribuci (přes 5000 simulací)vzájemných informačních hodnot získaných 40 (nahoře) a 200 (dole) pozorování. Jak se počet pozorování zvyšuje, omezené zkreslení vzorkování klesá. Přerušovaná zelená svislá čára v pravých sloupcích označuje skutečnou hodnotu vzájemných informací nesených simulovaným systémem(což se rovná 0 bitům).
jako příklad, zvažovat hypotetickou proměnnou \(Y\), který je rovnoměrně rozložen v rozmezí 1-10, a „vysvětlující proměnnou“ \(X\), které lze předpokládat hodnot buď 1 nebo 2. Předpokládejme, že jsou ve skutečnosti zcela nezávislé na sobě, a proto pozorování hodnot \(x\) nemůže pomoci předpovědět pravděpodobné hodnoty \(y\ .\ ) Experimentátor hledající možné vztahy mezi \(X\) a \(Y\) to však neví. V tomto případě je skutečná podmíněná pravděpodobnost \(P (y / x)\) 0.1 ( Obrázek 2A a Obrázek 2B, černá tečkovaná čára) pro všechny kombinace \(x\)a \(y\ ,\), což znamená, že \(P(y)\) je také 0.1; v důsledku toho skutečná hodnota vzájemné informace je null. Obrázek 2A a obrázek 2B ukazují experimentální pozorovací frekvence(červené křivky) získané ze simulovaného experimentu s \(N\)= 40 vzorky(20 vzorků pro každou hodnotu \(x\)). V tomto simulovaném příkladu, vzorky byly odebrány skutečně náhodně a správně z podkladových distribucí pravděpodobnosti, a proto nedošlo k žádnému zkreslení výběru. Nicméně, vzhledem k omezenému odběru vzorků, odhad pravděpodobnosti (červená linie na Obrázku 2A a Obrázek 2B) se výrazně liší od 0,1 a jeden od druhého, a vzájemná informace odhad získaný připojením experimentálně získaných odhadů do výše uvedeného vzorce je non-null (0,2 bitů). Opakování simulovaný experiment znovu a znovu, jeden získá mírně odlišné výsledky pokaždé ( Obrázek 2C): informace o distribuci vypočítán z \(N\)= 40 vzorků je soustředěn na 0.202 bitů – a ne na skutečnou hodnotu 0 bitů. To ukazuje, že odhad vzájemných informací trpí omezeným zkreslením odběru vzorků. Čím větší je počet vzorků, tím menší jsou výkyvy odhadovaných pravděpodobností a tím menší je omezené zkreslení odběru vzorků. Například u \(N\)= 200 vzorků; (100 vzorků pro každou hodnotu \(x\;\) obrázek 2D-F) je omezené zkreslení vzorkování vzájemné informace 0,033 bitů. Podobné problémy platí i pro míry kauzálních vztahů, jako je Grangerova kauzalita a přenosová entropie. Všimněte si, že omezené zkreslení vzorkování vzniká, protože vzájemná informace je nelineární funkcí pravděpodobností. Pravděpodobnost, že sami by být ovlivněna omezený odběr vzorků zaujatost, protože by průměrné skutečné pravděpodobnosti v průběhu mnoha opakování experimentu s konečným počtem údajů.
Omezený odběr vzorků zkreslení může být opravena pomocí výpočetní jeho přibližné hodnoty analyticky a odčítání, nebo pomocí předchozí informace o základním rozdělení pravděpodobnosti snížit jejich statistického výběru vzorků výkyvy (Panzeri et al. 2007).
vzorkovací zkreslení v neurovědě
V posledních letech roste zájem o účinek vzorkovacího zkreslení a omezeného vzorkovacího zkreslení v neurovědě. Důležitým problémem v senzorické neurovědě je pochopit, jak sítě neuronů reprezentují a vyměňují smyslové informace pomocí jejich koordinovaného vzorce reakce na podněty. Široce používaným empirickým přístupem k tomuto problému je zaznamenávat extracelulárně akční potenciály emitované neurony. Extracelulární elektrody jsou často umístěny do vybraného umístění mozku, protože lze detekovat akční potenciály. Je známo, že tento postup může zaujatost odběru vzorků k větší neurony (vysílají signály, které jsou snadněji detekovat) a k nejvíce aktivní neurony (například jámy, teleporty et al. 2006). To poněkud souvisí s výše uvedeným problémem „vzorkování pohodlí“. Neurovědci s větší pravděpodobností hlásí chování těch neuronů, které jsou nejsnadněji („pohodlně“) pozorovány metodami, které mají k dispozici. Oprava tohoto zkreslení odběru vzorků vyžaduje záznam také z menších a méně aktivních neuronů a vyhodnocení, pomocí různých typů anatomických a funkčních informací, relativní distribuce různých typů nervových populací. Důsledky tohoto problému vzorkování a způsoby, jak jej vzít v úvahu, jsou diskutovány v (Shoham et al. 2006). Omezené vzorkování zkreslení dává problémy ve stanovení kauzální souvislosti mezi smyslovými podněty a některé vlastnosti neuronální populace odpovědi, protože to může uměle zvyšovat vzájemné informace jsou k dispozici v komplexní charakterizace neuronální odpovědi (jako jsou ty založené na přesných časech akční potenciály) více informací je k dispozici v jednodušší charakteristika neuronální aktivity (jako např. ty, které zanedbávání detailů časové struktury neuronální odpověď). Důsledky tohoto problému vzorkování a způsoby jeho nápravy jsou diskutovány v (Panzeri et al. 2007).