Próba

działalność po publikacji

kurator: Cesare Magri

autorzy:
0.33-

Ludovico Carraro

0.33 –

Eugene M. Izhikevich

0.33 –

Stefano Panzeri

0.17 –

Nick orbeck

odchylenie próbkowania oznacza, że próbki zmiennej stochastycznej, które są zbierane w celu określenia jej rozkładu, są wybierane nieprawidłowo i nie reprezentują prawdziwego rozkładu z przyczyn nie przypadkowych. Rozważmy konkretny przykład: możemy chcieć przewidzieć wynik wyborów prezydenckich za pomocą sondażu opinii publicznej. Pytanie 1000 wyborców o ich zamiary głosowania może dać dość dokładną prognozę prawdopodobnego zwycięzcy, ale tylko wtedy, gdy nasza próba 1000 wyborców jest „reprezentatywna” dla elektoratu jako całości (tj. bezstronna). Jeśli tylko sondować opinię, 1000 białych studentów klasy średniej, to poglądy wielu ważnych części elektoratu jako całości (mniejszości etniczne, osoby starsze, pracownicy fizyczni) są prawdopodobnie niedostatecznie reprezentowane w próbie, a nasza zdolność do przewidywania wyników wyborów z tej próby jest zmniejszona.

w bezstronnej próbce różnice między próbkami pobranymi ze zmiennej losowej a jej prawdziwym rozkładem lub różnice między próbkami jednostek z populacji a całą populacją, którą reprezentują, powinny wynikać tylko z przypadku. Jeśli ich różnice nie wynikają tylko z przypadku, istnieje błąd próbkowania. Błąd próbkowania często powstaje, ponieważ niektóre wartości zmiennej są systematycznie niedostatecznie reprezentowane lub nadmiernie reprezentowane w odniesieniu do prawdziwego rozkładu zmiennej (jak w naszym przykładzie badania opinii publicznej powyżej). Ze względu na jego spójny charakter, odchylenie próbkowania prowadzi do systematycznego zniekształcenia oszacowania pobranego rozkładu prawdopodobieństwa. Zniekształcenia tego nie można wyeliminować poprzez zwiększenie liczby próbek danych i należy je skorygować za pomocą odpowiednich technik, z których niektóre omówiono poniżej. Innymi słowy, sondowanie dodatkowych 1000 białych studentów nie poprawi predykcyjnej siły naszego sondażu, ale sondaż 1000 osób wybranych losowo z listy wyborczej. Oczywiście, tendencyjna próbka może powodować problemy w miarze funkcji prawdopodobieństwa (np., wariancji lub entropii rozkładu), ponieważ wszelkie statystyki obliczone z tej próbki ma potencjał, aby być konsekwentnie błędne.

  • 1 przyczyny odchylenia próbkowania
  • 2 korekta i redukcja odchylenia próbkowania
  • 3 odchylenie próbkowania, błąd próbkowania, odchylenie funkcji prawdopodobieństwa i ograniczone odchylenie próbkowania
  • 4 wpływ ograniczonego pobierania próbek na określenie relacji statystycznych i przyczynowych
  • 5 odchylenie próbkowania w neuronauce
  • 6 Bibliografia
  • 7 Linki zewnętrzne
  • 8 Zobacz także

przyczyny błędu pobierania próbek

częstą przyczyną błędu pobierania próbek jest projektowanie badania lub gromadzenie danych procedura, z których obie mogą sprzyjać lub nie sprzyjać zbieraniu danych od niektórych klas lub osób lub w pewnych warunkach. Błąd pobierania próbek jest również szczególnie widoczne, gdy naukowcy przyjmują strategie pobierania próbek w oparciu o osąd lub wygodę, w którym kryterium używane do wyboru próbek jest w jakiś sposób związane ze zmiennymi zainteresowania. Na przykład, odnosząc się ponownie do przykładu badania opinii publicznej, badacz akademicki zbierający dane opinii może wybrać, ze względu na wygodę, zbierać opinie głównie od studentów, ponieważ zdarzy im się mieszkać w pobliżu, a to dodatkowo spowoduje odchylenie próbkowania w kierunku opinii przeważającej w klasie społecznej mieszkającej w okolicy.

Rysunek 1: możliwe źródła błędu w doborze próby z populacji.

w naukach społecznych i ekonomicznych ekstrakcja losowych próbek zazwyczaj wymaga ramki pobierania próbek, takich jak lista jednostek całej populacji lub pewne informacje pomocnicze na temat niektórych kluczowych cech populacji docelowej, która ma być pobierana. Na przykład przeprowadzenie badania dotyczącego szkół podstawowych w danym kraju wymaga uzyskania listy wszystkich szkół w kraju, z której można pobrać próbkę. Jednakże zastosowanie ramki próbkowania niekoniecznie zapobiega pobieraniu próbek. Na przykład, można nie prawidłowo określić populacji docelowej lub wykorzystać nieaktualne i niekompletne informacje, wykluczając tym samym części populacji docelowej. Ponadto, nawet jeśli rama pobierania próbek jest prawidłowo wybrana, odchylenie próbkowania może wynikać z jednostek nie reagujących na próbki (np. niektóre klasy przedmiotów mogą być bardziej skłonne do odmowy udziału lub mogą być trudniejsze do kontaktu itp.) Brak odpowiedzi jest szczególnie prawdopodobne, że spowoduje stronniczość, gdy przyczyna braku odpowiedzi jest związana z badanym zjawiskiem. Rysunek 1 ilustruje, w jaki sposób niedopasowanie między ramami pobierania próbek a populacją docelową, a także brak odpowiedzi, może spowodować zniekształcenie próby.

w doświadczeniach w naukach fizycznych i biologicznych odchylenie próbkowania często występuje, gdy zmienna docelowa, która ma być zmierzona podczas eksperymentu (np. energia układu fizycznego), jest skorelowana z innymi czynnikami (np. temperatura układu), które są utrzymywane na stałym lub ograniczonym poziomie w kontrolowanym zakresie podczas eksperymentu. Rozważmy na przykład określenie rozkładu prawdopodobieństwa prędkości wszystkich samochodów na Brytyjskich drogach w dowolnym momencie w ciągu określonego dnia. Prędkość jest zdecydowanie związana z lokalizacją: dlatego pomiar prędkości tylko w niektórych typach lokalizacji może spowodować odchylenie próbki. Na przykład, jeśli wszystkie środki zostaną podjęte na ruchliwych skrzyżowaniach w centrum miasta, przykładowy rozkład prędkości samochodów nie będzie reprezentatywny dla samochodów brytyjskich i będzie silnie tendencyjny w kierunku wolnych prędkości, ponieważ lekceważy samochody poruszające się po autostradach i innych szybkich drogach. Należy zauważyć, że systematyczne zniekształcenie rozkładu zmiennej losowej z próby może wynikać również z czynników innych niż odchylenie próbkowania, takich jak systematyczny Błąd w instrumentach wykorzystywanych do zbierania danych z próby. Rozważając ponownie przykład rozkładu prędkości samochodów w Wielkiej Brytanii, i załóżmy, że eksperymentator ma dostęp do jednoczesnego odczytu prędkościomierzy umieszczonych na każdym samochodzie, tak aby nie było odchylenia próbkowania. Jeśli większość prędkościomierzy jest dostrojona tak, aby zawyżać prędkość i przeceniać ją bardziej przy większej prędkości, wynikający z tego rozkład próbkowania będzie tendencyjny w kierunku dużych prędkości.

korekta i redukcja odchylenia próbkowania

aby zmniejszyć odchylenie próbkowania, dwa najważniejsze kroki podczas projektowania badania lub eksperymentu to (i) aby uniknąć oceny lub wygody pobierania próbek (ii) aby upewnić się, że populacja docelowa jest odpowiednio zdefiniowana i że ramka próbki pasuje do niej w jak największym stopniu. W przypadku gdy ograniczone zasoby lub względy wydajności ograniczają możliwość pobierania próbek z całej populacji, należy zadbać o to, aby wykluczone populacje nie różniły się od ogółu pod względem mierzonych statystyk. W naukach społecznych badania reprezentatywne populacji najczęściej nie są prostymi próbkami losowymi, ale postępują zgodnie z bardziej złożonymi projektami próbek (Cochran 1977). Na przykład w typowym badaniu gospodarstw domowych próba gospodarstw domowych jest wybierana w dwóch etapach: w pierwszym etapie następuje wybór wsi lub części miast (klastra), a w drugim etapie wybierana jest określona liczba gospodarstw domowych w ramach tego samego klastra. Przy przyjmowaniu takich złożonych wzorów próbek ważne jest, aby upewnić się, że informacje ramki próbki jest używany prawidłowo i że prawdopodobieństwo i dobór losowy są realizowane i udokumentowane na każdym etapie procesu pobierania próbek. W rzeczywistości takie informacje będą niezbędne do obliczenia bezstronnych szacunków dla populacji przy użyciu wag pobierania próbek (odwrotność prawdopodobieństwa wyboru) i biorąc pod uwagę projekt pobierania próbek w celu prawidłowego obliczenia błędu pobierania próbek. W złożonych projektach próbek błąd pobierania próbek będzie zawsze większy niż w prostych próbkach losowych (Cochran 1977).

ilekroć ramka próbkowania zawiera jednostki, które już nie istnieją (np. ponieważ ramki próbek są nieprawidłowe i nieaktualne), niemożliwe będzie uzyskanie jakichkolwiek próbek z takich nieistniejących jednostek. Sytuacja ta nie powoduje zniekształceń szacunków, pod warunkiem że takie przypadki nie są zastępowane metodami nie-losowymi oraz że pierwotne wagi próbek są odpowiednio dostosowane w celu uwzględnienia takich niedoskonałości ramki próbki (niemniej jednak niedoskonałości ramki próbki wyraźnie mają wpływ na koszty, a jeśli wielkość próby jest zmniejszona, wpływa to również na rozmiar błędu pobierania próbek).

rozwiązania błędu spowodowanego brakiem odpowiedzi są znacznie bardziej przegubowe i można je ogólnie podzielić na rozwiązania ex-ante i ex-post (Groves et al. 1998). Rozwiązania Ex-ante starają się zapobiegać i minimalizować Brak odpowiedzi na różne sposoby (na przykład specjalne szkolenie operatorów, kilka prób przeprowadzenia wywiadu z respondentem itp.) natomiast rozwiązania ex-post próbują zbierać pomocnicze informacje o nie-respondentach, które są następnie wykorzystywane do obliczania prawdopodobieństwa odpowiedzi dla różnych podgrup populacji, a więc ponownie ważyć DANE odpowiedzi dla odwrotności takiego prawdopodobieństwa lub alternatywnie niektóre po stratyfikacji i kalibracji.

odchylenie próbkowania, błąd próbkowania, odchylenie funkcji prawdopodobieństwa i ograniczone odchylenie próbkowania

pojęcie odchylenia próbkowania nie powinno być mylone z innymi powiązanymi, ale odrębnymi pojęciami, takimi jak „błąd próbkowania”, „odchylenie funkcjonalności prawdopodobieństwa” i „ograniczone odchylenie próbkowania”. Błąd próbkowania funkcji rozkładu prawdopodobieństwa (takich jak wariancja lub Entropia rozkładu) jest różnicą między oszacowaniem funkcjonalności prawdopodobieństwa obliczonej na pobranym rozkładzie a prawidłową wartością funkcjonalności obliczonej na prawdziwym rozkładzie. Bias funkcji rozkładu prawdopodobieństwa jest zdefiniowana jako wartość oczekiwaną błędu pobierania próbek. Odchylenie próbkowania może prowadzić do odchylenia funkcjonalnego prawdopodobieństwa. Jednak te dwa pojęcia nie są równoważne.

odchylenie może powstać podczas pomiaru nieliniowej funkcjonalności prawdopodobieństwa z ograniczonej liczby próbek doświadczalnych, nawet jeśli próbki te są naprawdę losowo wybrane z populacji podstawowej, a zatem nie ma odchylenia próbkowania. To odchylenie nazywa się „ograniczonym odchyleniem próbkowania”. Poniżej podamy przykład ograniczonego wpływu próbkowania na wzajemne informacje.

wpływ ograniczonego pobierania próbek na określenie relacji statystycznych i przyczynowych

\(\tag{1}I (X;Y) = \ sum_{X,y} P(x,y)\, log_2 \frac{P(x,y)}{p(x)\cdot P(y)}\)

jednak w praktyce pomiar\ (I(X;Y)\) może być trudny, ponieważ dokładne wartości prawdopodobieństwa\ (P(x), P(Y) I P(x,y)\) są zwykle nieznane. W zasadzie można łatwo oszacować te prawdopodobieństwa na podstawie obserwowanych rozkładów częstotliwości w próbkach doświadczalnych, ale zwykle prowadzi to do stronniczych szacunków \(I (X; Y)\,\), nawet jeśli próbki używane do oszacowania \(P(x), P(y) I P(x, y)\) są bezstronnymi, reprezentatywnymi próbkami podstawowych rozkładów \(X\) i \(Y\ .\ ) Ten szczególny typ błędu nazywa się „ograniczonym błędem próbkowania” i jest zdefiniowany jako różnica między wartością oczekiwaną funkcjonalności prawdopodobieństwa obliczoną z rozkładów prawdopodobieństwa oszacowanych za pomocą próbek \(N\), a jego wartością obliczoną z rzeczywistych rozkładów prawdopodobieństwa.

Rysunek 2: ograniczone odchylenie próbkowania. Symulacja „nieinformacyjnego” systemu, którego Dyskretna odpowiedź y jest rozłożona z równomiernym rozkładem w zakresie od 1 do 10, niezależnie od tego, która z dwóch wartości domniemanej zmiennej wyjaśniającej x została przedstawiona. Przykłady empirycznych histogramów prawdopodobieństwa odpowiedzi (czerwone linie stałe) pobranych z 40 i 200 obserwacji (górny i dolny wiersz odpowiednio) są pokazane w lewej i centralnej kolumnie (odpowiedzi na x = 1 i x = 2 odpowiednio). Czarna kropkowana linia pozioma jest prawdziwym rozkładem odpowiedzi. Prawa kolumna przedstawia (w postaci niebieskich histogramów) rozkład (ponad 5000 symulacji) wartości informacji wzajemnych uzyskanych przy odpowiednio 40 (góra) i 200 (dół) obserwacjach. Wraz ze wzrostem liczby obserwacji zmniejsza się ograniczone odchylenie próbkowania. Przerywana Zielona pionowa linia w prawej kolumnie wskazuje prawdziwą wartość wzajemnej informacji niesionej przez symulowany system (która jest równa 0 bitom).

na przykład rozważmy hipotetyczną zmienną odpowiedzi \(Y\), która jest równomiernie rozłożona w zakresie 1-10, oraz „zmienną wyjaśniającą” \(X\), która może przyjmować wartości 1 lub 2. Załóżmy, że są one w rzeczywistości całkowicie niezależne od siebie, a zatem obserwacja wartości \(x\) nie może pomóc przewidzieć prawdopodobnych wartości \(y\.\ ) Jednak eksperymentator szukający możliwych relacji między \(X\) i \(Y\) tego nie wie. W tym przypadku prawdziwe prawdopodobieństwo warunkowe \(P (y / x)\) wynosi 0.1 (Rysunek 2A i rysunek 2B, czarna kropkowana linia) dla wszystkich kombinacji \(x\) i \(y\,\), co oznacza, że \(P (y)\) jest również 0.1; W konsekwencji, prawdziwa wartość wzajemnej informacji jest równa null. Fig. 2A i Fig. 2b pokazują eksperymentalne częstotliwości obserwacji(czerwone krzywe) uzyskane z symulowanego eksperymentu z \(N\)= 40 próbek (20 próbek dla każdej wartości \(x\)). W tym symulowanym przykładzie próbki pobrano naprawdę losowo i poprawnie z podstawowych rozkładów prawdopodobieństwa, a zatem nie było błędu próbkowania. Jednak ze względu na ograniczone pobieranie próbek, szacowane prawdopodobieństwa (czerwona linia na fig.2a i Fig. 2b) różnią się znacznie od 0,1 i od siebie, a wzajemne oszacowanie informacji uzyskane przez podłączenie doświadczalnie uzyskanych szacunków do powyższego wzoru jest INNE niż null (0,2 bity). Powtarzając w kółko symulowany eksperyment, za każdym razem uzyskuje się nieco inne wyniki ( rysunek 2C): rozkład informacji obliczony z \(N\)= 40 próbek jest wyśrodkowany przy 0,202 bitach – a nie Przy rzeczywistej wartości 0 bitów. Pokazuje to, że szacunki dotyczące wzajemnych informacji mają ograniczony wpływ na pobranie próbek. Im większa liczba próbek, tym mniejsze wahania w szacowanych prawdopodobieństwach, a w konsekwencji mniejsze ograniczone odchylenie próbkowania. Na przykład, z \(N\)= 200 próbek; (100 próbek dla każdej wartości \(x\ ;\) rysunek 2D-F), ograniczone odchylenie próbkowania wzajemnej informacji wynosi 0,033 bity. Podobne problemy dotyczą również miar związków przyczynowych, takich jak przyczynowość Grangera i Entropia transferowa. Należy zauważyć, że ograniczone odchylenie próbkowania powstaje, ponieważ wzajemna informacja jest nieliniową funkcją prawdopodobieństwa. Same prawdopodobieństwa byłyby nienaruszone przez ograniczone odchylenie próbkowania, ponieważ byłyby one średnie do prawdziwych prawdopodobieństw w wielu powtórzeniach eksperymentu ze skończoną liczbą danych.

ograniczone odchylenie próbkowania można skorygować, obliczając jego przybliżoną wartość analitycznie i odejmując ją, lub wykorzystując wcześniejsze informacje o podstawowych rozkładach prawdopodobieństwa w celu zmniejszenia ich statystycznych wahań próbkowania (Panzeri et al. 2007).

odchylenie próbkowania w neuronauce

W ostatnich latach rośnie zainteresowanie efektem odchylenia próbkowania i ograniczonego odchylenia próbkowania w neuronauce. Ważnym problemem w neuronauce sensorycznej jest zrozumienie, w jaki sposób sieci neuronów reprezentują i wymieniają informacje sensoryczne za pomocą ich skoordynowanego wzorca reakcji na bodźce. Szeroko stosowanym empirycznym podejściem do tego problemu jest zapisywanie poza komórkami potencjałów działania emitowanych przez neurony. Elektrody zewnątrzkomórkowe są często umieszczane w wybranym miejscu mózgu, ponieważ można wykryć potencjały działania. Uznaje się, że procedura ta może wpływać na pobieranie próbek w kierunku większych neuronów (emitujących sygnały, które są łatwiejsze do wykrycia) i w kierunku większości aktywnych neuronów (Shoham et al. 2006). Jest to nieco związane z problemem „wygoda pobierania próbek” omówione powyżej. Neurolodzy częściej zgłaszają zachowanie tych neuronów, które najłatwiej („wygodnie”) zaobserwować za pomocą dostępnych im metod. Skorygowanie tego błędu pobierania próbek wymaga również rejestracji mniejszych i mniej aktywnych neuronów i oceny, przy użyciu różnych typów informacji anatomicznych i funkcjonalnych, względnych rozkładów różnych typów populacji neuronowych. Konsekwencje tego problemu pobierania próbek i sposoby, aby wziąć to pod uwagę są omówione w (Shoham et al. 2006). Ograniczone odchylenie próbkowania daje problemy w określaniu związku przyczynowego między bodźcami zmysłowymi a pewnymi cechami odpowiedzi populacji neuronalnej, ponieważ może sztucznie zwiększyć wzajemną informację dostępną w złożonych charakteryzacjach odpowiedzi neuronalnych (takich jak te oparte na dokładnych czasach potencjałów działania) nad informacjami dostępnymi w prostszej charakteryzacji aktywności neuronalnej (takich jak te, które zaniedbują szczegóły struktury czasowej odpowiedzi neuronalnej). Implikacje tego problemu pobierania próbek i sposoby, aby skorygować dla niego są omówione w (Panzeri et al. 2007).

Related Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *