Näytteenottoharha

Post-publication activity

Curator: Cesare Magri

Contributors:
0.33 –

Ludovico Carraro

0.33 –

Eugene M. Izhikevich

0.33 –

Stefano Panzeri

0,17 –

Nick Orbeck

otantaharha tarkoittaa, että stokastisen muuttujan otokset, jotka kerätään sen jakauman määrittämiseksi, on valittu väärin, eivätkä ne muista kuin satunnaisista syistä edusta todellista jakaumaa. Tarkastellaanpa erästä erityistä esimerkkiä: presidentinvaalien tulos kannattaa ennustaa mielipidekyselyn avulla. Kysymällä 1000 äänestäjältä heidän äänestysaikeistaan voidaan antaa melko tarkka ennuste todennäköisestä voittajasta, mutta vain jos 1000 äänestäjän otos on koko äänestäjäkunnan ”edustava” (eli puolueeton). Jos kyselemme vain 1000 valkoisen keskiluokan korkeakouluopiskelijan mielipidettä, niin monien koko äänestäjäkunnan tärkeiden osien (etniset vähemmistöt, vanhukset, työläiset) näkemykset ovat todennäköisesti aliedustettuina otoksessa, ja kykymme ennustaa vaalien tulos tuosta otoksesta heikkenee.

puolueettoman otoksen osalta satunnaismuuttujasta otettujen otosten ja sen todellisen jakauman väliset erot tai populaatiosta otettujen yksiköiden otosten ja niiden edustaman koko populaation väliset erot johtuvat vain sattumasta. Jos niiden erot eivät johdu vain sattumasta, on näytteenottoharha. Otantaharha syntyy usein siitä, että muuttujan tietyt arvot ovat systemaattisesti aliedustettuina tai yliedustettuina muuttujan todellisen jakauman suhteen (kuten yllä olevassa mielipidekyselyesimerkissämme). Koska näytteenottoharha on johdonmukainen, se johtaa otoksen todennäköisyysjakauman estimaatin systemaattiseen vääristymiseen. Tätä vääristymää ei voida poistaa lisäämällä datanäytteiden määrää, ja se on korjattava asianmukaisilla tekniikoilla, joista joitakin käsitellään jäljempänä. Toisin sanoen 1000 valkoisen opiskelijan äänestäminen ei paranna mielipidekyselymme ennustavaa voimaa, mutta 1000 vaaliluettelosta sattumanvaraisesti valitun henkilön äänestäminen parantaisi. On selvää, että puolueellinen otos voi aiheuttaa ongelmia todennäköisyysfunktioiden mittaamisessa (esim., jakauman varianssi tai entropia), koska kaikki kyseisestä otoksesta lasketut tilastot voivat olla jatkuvasti virheellisiä.

  • 1 Otantaharhojen korjaaminen ja vähentäminen
  • 3 Otantaharha, otantavirhe, todennäköisyysfunktion harha ja rajoitettu otantaharha
  • 4 rajoitetun otannan vaikutus tilastollisten ja syy-seuraussuhteiden määrittämiseen
  • 5 Otantaharha neurotieteessä
  • 6 viittausta
  • 7 ulkoista linkkiä
  • 8 katso myös

otantaharhaisuuden syyt

yleinen syy otantaharhaan on tutkimuksen suunnittelussa tai tiedonkeruussa menettely, jotka molemmat voivat suosia tai epäsuosiossa tietojen keräämistä tiettyjen luokkien tai yksilöiden tai tietyissä olosuhteissa. Otantaharha on erityisen merkittävä myös silloin, kun tutkijat hyväksyvät harkintaan tai mukavuuteen perustuvia otantastrategioita, joissa otosten valinnassa käytetty kriteeri liittyy jollain tavalla kiinnostaviin muuttujiin. Esimerkiksi, viitaten jälleen mielipidetiedustelun esimerkki, akateeminen tutkija kerää mielipidetietoja voi valita, koska mukavuus, kerätä mielipiteitä enimmäkseen korkeakouluopiskelijoiden koska he sattuvat asumaan lähellä, ja tämä entisestään vinouttaa näytteenotto kohti mielipiteen vallitseva sosiaalinen luokka asuu naapurustossa.

Kuva 1: mahdolliset vinouman lähteet, jotka esiintyvät otoksen valinnassa populaatiosta.

yhteiskunta-ja taloustieteissä satunnaisotosten ottaminen vaatii tyypillisesti otantakehikon, kuten luettelon koko populaation yksiköistä, tai jonkin lisätiedon joistakin otettavan kohdepopulaation keskeisistä ominaisuuksista. Esimerkiksi tietyn maan peruskouluja koskevan tutkimuksen tekeminen edellyttää luettelon hankkimista kaikista maan kouluista, joista voidaan ottaa näyte. Otoskehikon käyttäminen ei kuitenkaan välttämättä estä otantaharhaa. Esimerkiksi kohdepopulaation määrittämisessä voidaan epäonnistua tai käyttää vanhentuneita ja puutteellisia tietoja, jolloin kohdepopulaation osia ei oteta huomioon. Lisäksi, vaikka otantakehikko on valittu oikein, näytteenottoharha voi syntyä ei-reagoivista otantayksiköistä (esim.tietyt koehenkilöluokat saattavat todennäköisemmin kieltäytyä osallistumasta, tai niihin voi olla vaikeampi ottaa yhteyttä jne.) Vastauskato on erityisen todennäköistä, jos vastauskadon syy liittyy tutkittavaan ilmiöön. Kuviossa 1 havainnollistetaan, miten otoskehikon ja kohdepopulaation väliset ristiriidat ja vastauskatot voivat vaikuttaa otokseen.

fysikaalisissa ja biologisissa kokeissa näytteenottoharhaa esiintyy usein silloin, kun kokeen aikana mitattava kohdemuuttuja (esim.fysikaalisen järjestelmän energia) korreloituu muihin tekijöihin (esim. järjestelmän lämpötila), jotka pidetään kiinteinä tai rajoitettuina kontrolloidulla alueella kokeen aikana. Ajatellaanpa esimerkiksi kaikkien autojen nopeuden todennäköisyysjakauman määrittämistä Britannian teillä milloin tahansa tietyn päivän aikana. Nopeus liittyy ehdottomasti sijaintiin: siksi nopeuden mittaaminen vain tietyntyyppisissä paikoissa voi harhauttaa näytettä. Jos esimerkiksi kaikki toimenpiteet toteutetaan vilkkaasti liikennöidyillä liikenteen risteyksillä kaupungin keskustassa, autojen nopeuksien jakauma ei edusta Britannian autoja ja on voimakkaasti hitaiden nopeuksien suuntainen, koska siinä laiminlyödään moottoriteillä ja muilla nopeilla teillä kulkevia autoja. On tärkeää huomata, että satunnaismuuttujan otosjakauman systemaattinen vääristyminen voi johtua myös muista tekijöistä kuin otantaharhasta, kuten systemaattisesta virheestä otosaineiston keräämiseen käytetyissä välineissä. Kun otetaan taas huomioon esimerkki autojen nopeuden jakautumisesta Britanniassa, ja oletetaan, että kokeilijalla on pääsy jokaiseen autoon asetettujen nopeusmittareiden samanaikaiseen lukemaanjotta näytteenottoharhaa ei synny. Jos useimmat nopeusmittarit on viritetty yliarvioimaan nopeutta ja yliarvioimaan sitä enemmän suuremmalla nopeudella, niin tuloksena oleva otosjakauma painottuu suuriin nopeuksiin.

Näytteenottoharhojen korjaaminen ja vähentäminen

näytteenottoharhojen vähentämiseksi kaksi tärkeintä vaihetta tutkimusta tai koetta suunniteltaessa ovat (i) arviointikyvyn tai tarkoituksenmukaisuuden välttäminen (ii) sen varmistamiseksi, että kohdepopulaatio on määritelty asianmukaisesti ja että otoskehys vastaa sitä mahdollisimman paljon. Kun rajalliset resurssit tai tehokkuussyyt rajoittavat mahdollisuutta ottaa näytteitä koko populaatiosta, olisi varmistettava, että ulkopuolelle jätetyt populaatiot eivät poikkea koko populaatiosta mitattavien tilastojen osalta. Yhteiskuntatieteissä väestöedustavat tutkimukset eivät useimmiten ole yksinkertaisia satunnaisotoksia, vaan ne noudattavat monimutkaisempia otantamalleja (Cochran 1977). Esimerkiksi tyypillisessä kotitaloustutkimuksessa valitaan otos kotitalouksista kahdessa vaiheessa: ensimmäisessä vaiheessa valitaan kyliä tai kaupunkien osia (klusteri) ja toisessa vaiheessa valitaan tietty määrä kotitalouksia samaan klusteriin. Tällaisia monimutkaisia otosrakenteita hyväksyttäessä on olennaisen tärkeää varmistaa, että otoskehystä koskevia tietoja käytetään asianmukaisesti ja että todennäköisyys ja Satunnaisvalinta toteutetaan ja dokumentoidaan otantaprosessin jokaisessa vaiheessa. Nämä tiedot ovat itse asiassa olennaisen tärkeitä, jotta voidaan laskea perusjoukolle puolueettomia arvioita käyttäen otospainoja (valinnan todennäköisyyden käänteisluku) ja ottaen huomioon otanta-asetelma, jotta otantavirhe voidaan laskea asianmukaisesti. Monimutkaisissa otoskokonaisuuksissa otantavirhe on aina suurempi kuin yksinkertaisissa satunnaisotoksissa (Cochran 1977).

Jos otoskehikkoon sisältyy yksiköitä, joita ei ole enää olemassa (esim.koska otoskehykset ovat virheellisiä ja vanhentuneita), on mahdotonta saada näytteitä tällaisista ei-olemassa olevista yksiköistä. Tämä tilanne ei vaikuta estimaatteihin edellyttäen, että tällaisia tapauksia ei korvata muilla kuin satunnaismenetelmillä ja että alkuperäisiä näytteenottopainoja mukautetaan asianmukaisesti otoskehikon puutteiden huomioon ottamiseksi (otoskehikon puutteilla on kuitenkin selvästi kustannusvaikutuksia, ja jos otoskokoa pienennetään, tämä vaikuttaa myös otosvirheen suuruuteen).

ratkaisut vastauskadon aiheuttamaan harhaan ovat paljon jäsennellympiä, ja ne voidaan yleensä jakaa ennakko-ja jälkiliuoksiin (Groves et al. 1998). Ennakkoratkaisuilla pyritään ehkäisemään ja minimoimaan vastauskatoa eri tavoin (esimerkiksi luetteloijien erityiskoulutus, useat yritykset haastatella vastaajaa jne.), kun jälkikäteen tehtävissä ratkaisuissa pyritään keräämään vastaamatta jättäneistä täydentävää tietoa, jota sitten käytetään vastetodennäköisyyden laskemiseen eri populaation alaryhmille ja siten vastetiedon uudelleenpainottamiseen tällaisen todennäköisyyden käänteiselle tai vaihtoehtoisesti jälkiositukselle ja kalibroinnille.

Näytteenottoharha, näytteenottovirhe, todennäköisyysfunktion harha ja rajoitettu näytteenottoharha

näytteenottoharhaa ei pidä sekoittaa muihin asiaan liittyviin mutta erillisiin käsitteisiin, kuten ”näytteenottovirhe”, ”todennäköisyysfunktionaalinen harha” ja ”rajoitettu näytteenottoharha”. Todennäköisyysjakauman funktionaalin otantavirhe (kuten varianssi tai jakauman entropia) on otetun jakauman yli lasketun todennäköisyysfunktionaalin estimaatin ja todellisen jakauman yli lasketun funktionaalin oikean arvon välinen erotus. Todennäköisyysjakauman funktionaalin harha määritellään otantavirheen odotusarvona. Näytteenottoharha voi johtaa todennäköisyysfunktionaaliseen harhaan. Nämä kaksi käsitettä eivät kuitenkaan vastaa toisiaan.

harha voi syntyä, kun mitataan todennäköisyyksien epälineaarista funktiota rajallisesta määrästä koenäytteitä, vaikka nämä näytteet poimitaan todella satunnaisesti perusjoukosta, eikä näytteenottoharhaa näin ollen ole. Tätä vinoumaa kutsutaan ”rajoitetuksi näytteenottoharhaksi”. Annamme alla esimerkin keskinäisen tiedon rajallisesta otantaharhasta.

rajoitetun otannan vaikutus tilastollisten ja syy-seuraussuhteiden määrittämiseen

\(\tag{1}I (X;Y) = \sum_{x,y} P(x,y)\, log_2 \frac{P(x,y)} {P(x) \cdot P(y)}\)

kuitenkin käytännössä voi olla vaikeaa mitata \(I(X;Y)\), koska todennäköisyyksien \(p(x), P(y) ja P(x,y)\) tarkkoja arvoja ei yleensä tunneta. Periaatteessa voi olla helppoa arvioida näitä todennäköisyyksiä kokeellisissa näytteissä Havaittujen frekvenssijakaumien perusteella, mutta tämä johtaa yleensä yksipuolisiin estimaatteihin \(I(X;Y)\,\), vaikka \(P(x), P(y) ja P(x, y)\) estimoinnissa käytetyt näytteet ovat itse puolueettomia, edustavia näytteitä \(X\) ja \(Y\ .\ ) Tätä tiettyä vinoumatyyppiä kutsutaan ”limited sampling bias” ksi, ja se määritellään \(n\) näytteillä estimoiduista todennäköisyysjakaumista lasketun todennäköisyysfunktionaalin odotusarvon ja todellisista todennäköisyysjakaumista lasketun todennäköisyysjakauman arvon erotuksena.

kuva 2: Vähäinen näytteenottoharha. Simulointi ”epäinformatiivisesta” systeemistä, jonka diskreetti vaste y on jakautunut yhtenäisellä jakaumalla, joka vaihtelee 1: stä 10: een, riippumatta siitä, kumpi kahdesta teoratiivisen selittävän muuttujan x arvosta on esitetty. Esimerkkejä empiirisistä vastetodennäköisyyksistä histogrammeista (punaiset kiinteät viivat), jotka on otettu 40 ja 200 havainnosta (ylä-ja alarivillä), esitetään vasemmassa ja keskimmäisessä sarakkeessa (vasteet arvoihin x = 1 ja x = 2). Musta pistemäinen vaakasuora viiva on todellinen vastejakauma. Oikea sarake näyttää (sinisenä histogrammina) 40 (ylä) ja 200 (ala) havainnolla saatujen keskinäisten tietoarvojen jakauman (yli 5000 simulaatiota). Kun havaintojen määrä kasvaa, suppea näytteenottoharha vähenee. Oikeissa sarakkeissa oleva vihreä pystyviiva osoittaa simuloidun järjestelmän välittämän keskinäisen tiedon todellisen arvon (joka on 0 bittiä).

tarkastellaan esimerkkinä hypoteettista vastemuuttujaa \(Y\), joka jakautuu tasaisesti alueelle 1-10, ja ”selittävää muuttujaa” \(X\), jonka arvoksi voidaan olettaa joko 1 tai 2. Oletetaan, että nämä ovat todellisuudessa täysin riippumattomia toisistaan, ja siksi tarkkailemalla arvoja \(x\) ei voi auttaa ennustamaan todennäköisiä arvoja \(y\ .\ ) Kokeellinen tutkija, joka etsii mahdollisia suhteita \(X\) ja \(Y\) välillä, ei kuitenkaan tiedä tätä. Tällöin todellinen ehdollinen todennäköisyys \(P (y|x)\) on 0.1 (kuva 2a ja kuva 2B, musta katkoviiva)kaikille yhdistelmille \(x\) ja \(y\,\), mikä tarkoittaa, että \(P(y)\) on myös 0,1; näin ollen keskinäisen tiedon todellinen arvo on nolla. Kuvissa 2a ja 2b esitetään kokeelliset havaintotaajuudet (punaiset käyrät), jotka on saatu simuloidusta kokeesta, jossa \(n\)= 40 näytettä (20 näytettä kutakin \(x\) – arvoa kohti). Tässä simuloidussa esimerkissä näytteet otettiin todella satunnaisesti ja oikein taustalla olevista todennäköisyysjakaumista, eikä otantaharhaa siten ollut. Rajallisen otannan vuoksi arvioidut todennäköisyydet (kuvan 2A ja 2b punainen viiva) poikkeavat kuitenkin huomattavasti 0,1: stä ja toisistaan, ja keskinäinen informaatioarvio, joka saadaan liittämällä kokeellisesti saadut estimaatit edellä olevaan kaavaan, on ei-nolla (0,2 bittiä). Toistamalla simuloitua koetta uudestaan ja uudestaan saadaan joka kerta hieman erilaisia tuloksia(Kuva 2C): \(n\)= 40 näytteestä laskettu tiedonjakauma keskitetään 0,202 bittiin – eikä 0 bitin todelliseen arvoon. Tämä osoittaa, että keskinäinen informaatioarvio kärsii rajallisesta otantaharhasta. Mitä suurempi näytteiden määrä, sitä pienempiä ovat arvioidun todennäköisyyden vaihtelut ja sitä pienempi on näin ollen rajoitettu näytteenottoharha. Esimerkiksi \(n\)= 200 näytettä; (100 näytettä jokaista \(x\ ;\) Kuvan 2D-F arvoa kohti) keskinäisen tiedon rajoitettu näytteenottoharha on 0,033 bittiä. Samanlaisia ongelmia sovelletaan myös kausaalisten suhteiden mittoihin, kuten Granger-kausaliteettiin ja siirto entropiaan. Huomaa, että vähäinen näytteenottoharha syntyy, koska keskinäinen informaatio on todennäköisyyksien epälineaarinen funktio. Rajoitettu näytteenottoharha ei vaikuttaisi itse todennäköisyyksiin, koska ne olisivat keskimääräisiä todellisille todennäköisyyksille, kun kokeessa on monta toistoa äärellisellä määrällä dataa.

rajoitettu otantaharha voidaan korjata laskemalla sen likiarvo analyyttisesti ja vähentämällä se pois, tai käyttämällä ennakolta saatuja tietoja taustalla olevista todennäköisyysjakaumista niiden tilastollisten otantavaihtelujen vähentämiseksi (Panzeri et al. 2007).

Otantaharhat neurotieteessä

viime vuosina kiinnostus otantaharhojen vaikutukseen ja vähäisempään otantaharhaan neurotieteessä on kasvanut. Sensorisen neurotieteen tärkeä ongelma on ymmärtää, miten neuronien verkostot edustavat ja vaihtavat aistitietoa koordinoidun reaktiomallinsa avulla ärsykkeisiin. Yleisesti käytetty empiirinen lähestymistapa tähän ongelmaan on tallentaa neuronien lähettämiä toimintapotentiaaleja. Solunulkoiset elektrodit sijoitetaan usein aivojen paikkaan, joka on valittu, koska toimintapotentiaalit voidaan havaita. On tunnustettu, että tämä menettely voi bias näytteenotto kohti suurempia neuronien (emitting signaaleja, jotka on helpompi havaita) ja kohti aktiivisimpia neuronien (Shoham et al. 2006). Tämä liittyy jossain määrin edellä käsiteltyyn ”mukavuusnäytteenoton” ongelmaan. Neurotieteilijät raportoivat todennäköisemmin niiden neuronien käyttäytymisestä, joita on helpoimmin (”sopivasti”) havaittu käytettävissään olevilla menetelmillä. Näytteenottoharhojen korjaaminen vaatii kirjaamista myös pienemmistä ja vähemmän aktiivisista neuroneista ja erilaisten anatomisten ja toiminnallisten tietojen avulla erilaisten neuropopulaatioiden suhteellisten jakaumien arviointia. Vaikutukset tämän näytteenotto ongelma ja tapoja ottaa se huomioon on keskusteltu (Shoham et al. 2006). Vähäinen näytteenottoharhaisuus aiheuttaa ongelmia aistiärsykkeiden ja neuronipopulaatiovasteiden tiettyjen piirteiden välisen syy-seuraussuhteen määrittämisessä, koska se voi keinotekoisesti lisätä neuronaalisten vasteiden monimutkaisissa luonnehdinnoissa saatavilla olevaa molemminpuolista informaatiota (kuten toimintapotentiaalien tarkkoihin ajankohtiin perustuvat tiedot) verrattuna informaatioon, joka on saatavilla neuronaalisen aktiivisuuden yksinkertaisemmassa luonnehdinnassa (kuten ne, joissa jätetään huomiotta neuronaalisen vasteen ajallisen rakenteen yksityiskohdat). Vaikutukset tämän näytteenotto ongelma ja tapoja korjata sitä käsitellään (Panzeri et al. 2007).

Related Posts

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *