큐레이터:Cesare Magri
도 Carraro
유진 M.Izhikevich
스테파노 Panzeri
닉 Orbeck
샘플링견을 의미하는 샘플의 확률적 변수는 수집을 결정하는 배포하는 선택을 잘못하지 않는 나타내는 사실이기 때문의가 아닌 임의의 이유입니다. 우리가 구체적인 예를 생각해 보자: 여론 조사를 통해 대통령 선거 결과를 예측하고 싶을 수도 있습니다. 요청 1000 유권자의 투표도 줄 수 있는 정확한 예측의 가능성이 높은 우승자는 경우에만 우리의 샘플 1000 유권자들은’대표’유권자의 전체적으로(즉,공평하). 만약 우리가 조사의 의견,1000 백색 중간 클래스 대학생,다음망의 많은 중요한 부분을 유권자의 전체로서(소수 민족,사람들이 노인,블루 칼라 노동자)될 가능성이 높은 소수 샘플에서,그리고 우리의 능력의 결과를 예측하는 선거에는 샘플이 감소합니다.
에서는 공정한 샘플 사이에는 차이점이에서 채취한 샘플을 임의변수와 그것의 진정한 배포,또는 사이의 차이점의 샘플에서 단위는 인구는 전체 인구는 그들을 대표해야만 결과에서는 기회입니다. 그들의 차이가 기회 때문 만이 아니라면 샘플링 바이어스가 있습니다. 샘플링 편견이 자주 발생하기 때문에 특정 값을 변수의 체계적으로 밑에 표시 또는 표현에 대하여 진정한 분포의 변수(예에서 우리의 의견 설문 조사를 들어 있습니다.) 일관된 특성 때문에 샘플링 바이어스는 샘플링 된 확률 분포의 추정치의 체계적인 왜곡을 초래합니다. 이 왜곡은 데이터 샘플의 수를 증가시킴으로써 제거 될 수 없으며 적절한 기술을 통해 수정되어야하며 그 중 일부는 아래에서 설명합니다. 다시 말해서,투표 추가 1000 흰색 대학 학생들이 향상되지 않습니다 예측 능력의 우리의 의견 설문지만,폴링 1000 개인 무작위로 선택에서 선거 롤 것입니다. 분명히 편향된 샘플은 확률 함수의 척도에 문제를 일으킬 수 있습니다(예: 그 샘플에서 계산 된 모든 통계가 일관되게 잘못 될 가능성이 있기 때문에 분포의 분산 또는 엔트로피).
콘텐츠
- 1 의 원인 샘플링 bias
- 2 정의 감소와 샘플링 bias
- 3 샘플링 bias 샘플링,오류,편견의 확률 기능 고 제한된 샘플링 bias
- 4 의 효과 제한된 샘플링에서의 결정을 통계와의 인과 관계를
- 5 샘플링 바이어스에서 신경과학
- 6 참조
- 7 외부 링크
- 8 참조
의 원인 샘플링 bias
일반적인 원인 샘플링의 편견 속에서의 디자인을 연구 또는에서 데이터 수집 절차,둘 다 특정 클래스 또는 개인 또는 특정 조건에서 데이터를 수집하는 것을 선호하거나 거부 할 수 있습니다. 샘플링견 또한 특별히 눈에 띄는 때마다 연구자를 채택 샘플링 전략을 기반으로 판단 또는 편에서는 기준이 사용되는 샘플을 선택하는 어떻게든 관련 변수들의 관심입니다. 예를 들어,다시 참조하의 의견 설문 조사를 들어,학술 연구를 수집하의 의견이터를 선택할 수 있기 때문에,편의 의견을 수렴 할 수있는 대부분에서 대학생 때문에 그들이 일어나 근처에 살고,이것은 더 바이어스 샘플링을 향한 의견 유행에서 소셜 클래스에서 살고 있습니다.
림 1:의 가능한 소스 편견에서 발생하는 샘플의 선택에서 인구입니다.
에서 사회 및 경제학과,무작위 샘플을 추출하는 일반적으로 필요한 샘플링 프레임이 목록과 같은의 단위는 전체 인구,또는 일부 보조에 대한 정보를 몇 가지 주요 특성을 대상 인구의 수집합니다. 예를 들어,수행에 대해 연구하고 초등학교에서 특정 국가가 필요합을 획득한 목록의 모든 학교에서 국가에서 샘플을 추출할 수 있습니다. 그러나 샘플링 프레임을 사용한다고해서 샘플링 바이어스가 반드시 방지되는 것은 아닙니다. 예를 들어,하나 실패 할 수 있습을 제대로 결정 대상 인구의 사용 또는 오래되고 불완전한 정보함으로써 제외한 부분 대상 인구의. 또한 경우에도,샘플링 프레임이 올바르게 선택되 샘플링,바이어스에서 발생할 수 있 응답 샘플링 장치(예:특정 클래스를 주제의 가능성이있을 수 있습을 거부하는 참여,또는 수하기 어렵게 연락 등등.)비 응답은 비 응답의 이유가 연구중인 현상과 관련 될 때마다 편견을 유발할 가능성이 특히 높습니다. 그림 1 은 샘플링 프레임과 대상 모집단 간의 불일치뿐만 아니라 비 응답이 샘플을 편향시킬 수있는 방법을 보여줍니다.
에서 실험에서의 물리적 및 생물학,샘플링한 편견이 자주 발생하면 대상 변수를 측정한 실험 기간 동안(예를 들어 에너지의 실제 시스템)의 상관관계를 다른 요인(예:온도 시스템의)을 유지하는 고정 또는 국내 통제되는 범위를 실험하는 동안. 예를 들어 특정 하루 동안 언제든지 영국 도로의 모든 자동차 속도의 확률 분포 결정을 고려하십시오. 속은 확실히 관련된 위치:그러므로 속도를 측정하에서만 특정 유형의 위치에도 편견 샘플. 예를 들어,만약 모든 조치를 취할 수 있습에서 바쁜 트래픽 접합에서 시내 중심,샘플 유통 자동차의 속도는 대표하지 않는 영국의 자동차와 것이 강하게 편견으로 속도가 느리기 때문에,그것은 무시한 자동차로 여행하에서 고속도로 및에서 다른 빠른 속 도로입니다. 그것은 중요한 참고하는 체계적인 왜곡의 샘플링 분포의 변수 결과에서도 이외의 다른 요인 샘플링,바이어스 등의 체계적인 오류가에서 악기를 수집하는 데 사용되는 샘플 데이터입니다. 고 다시 예의의 유통 자동차의 속도에 영국,고 있다고 생각하는 실험자에 액세스하는 동시 읽기 속도계를 위치에 모든 자동차,없도록 sampling bias. 는 경우 가장 속도 조정을 과대 평가하는 속도 및을 과대 평가하는 것이 더 높은 속도,그 결과 샘플 배포 것으로 치우친 높은 속도를 얻을 수 있습니다.
보정 및 감소의 샘플링 bias
을 줄이는 샘플링,바이어스의 가장 중요한 두 가지 단계를 때는 디자인을 연구 또는 실험이 있는(i)을 피하는 판단이나 편의 샘플링(ii)을 보장하는 대상 인구가 제대로 정의 및 샘플 프레임과 일치하는 만큼 그것을 가능합니다. 우 한정된 자원 또는 효율성의 가능성을 제한하는 샘플이 전체 인구 관리를 보장하기 위해주의해야한 것을 제외 인구하지 않습과 다른 전반적인 하나의 측면에서 통계를 측정할 수 있다. 사회과학연 인구를 대표 조사는 가장 일반적으로 간단하지 않는 임의의 샘플을,그러나 따라 더 복잡한 샘플 디자인(변호사 1977). 예를 들어,일반적인 가구 조사에서 가구 샘플은 두 단계로 선택됩니다: 에 첫 번째 단계는 선택이있는 마을의 또는 부분의 도시(cluster)그리고 두번째 단계의 설정 번호구 선택에 동일한 클러스터입니다. 을 채택할 때는 이와 같은 복잡한 샘플을 디자인하는지 확인하는 것이 필수적이다 샘플 프레임에 정보를 제대로 사용되는 확률 및 임의의 선택은 구현 및 문서화의 각 단계에서 샘플링의 과정입니다. 사실,이러한 정보는 것이 필수적인 것을 계산하는 편견에 대한 추정 인구는 샘플링 방법을 사용 무게(의 역함 확률의 선택)및 그 계정으로 샘플링을 디자인하기 위해서 제대로 계산한 샘플링에 오류가 있습니다. 복잡한 샘플 설계에서 샘플링 오류는 항상 단순한 무작위 샘플보다 클 것입니다(Cochran1977).
때마다의 샘플링 프레임이 포함됩 단위는 존재하지 않는 더 이상(예를 들어,기 때문에 샘플 프레임은 잘못된 오래된)는 것은 불가능을 구하는 모든 샘플에서 같은 비 기존의 단위입니다. 이 상황하지 않는 편견의 견적을 제공하는 등의 경우에는 대체를 사용하여가 아닌 임의의 방법,그리고 원래의 샘플링을 가중치는 올바르게 조정되는 계정한 샘플레 결함(그럼에도 불구하고 샘플레 결함을 명확하게 비용을 의미와 경우에는 샘플 크기를 줄이도에 영향을 미치는 크기의 샘플링에 오류가).
비 반응으로 인한 바이어스에 대한 해결책은 훨씬 더 명확하게 표현되어 있으며 일반적으로 ex-ante 및 ex-post 솔루션으로 나눌 수 있습니다(Groves et al. 1998). Ex-ante 솔루션을 방지하기 위해 시도를 최소화 비 응답에서 다양한 방법으로(예를 들어 특정의 교육을 표시하려는 시도는 여러 인터뷰에 응답자,등등.)반면 ex-post 솔루션도 수집 보조에 대한 정보를 비 응답자는 다음을 계산하는 데 사용되는 확률의 응답에 대한 다른 인 sub-그룹 재 무게 응답 데이터에 대한 역의 확률 또는 일부 게시물 층 및 교정이 가능합니다.
샘플링 bias 샘플링,오류,편견의 확률 기능,그리고 제한된 샘플링 bias
개념의 샘플링 바이어스 혼동하지 말아야와 다른 관련 하지만 고유한 개념 같은 샘플링”오류”,”편견의 확률 기능성”및”제한 샘플링 bias”. 샘플링 오류가 기능의 확률 분포(등의 분산 또는 엔트로피 유통)사이의 차이 추정 확률 기능적 계산을 통해 샘플링 분포하고 올바른 값을 기능적 계산을 통해 진정한 배포합니다. 확률 분포의 함수의 편향은 샘플링 오류의 예상 값으로 정의됩니다. 샘플링 바이어스는 확률 함수의 바이어스로 이어질 수 있습니다. 그러나 두 개념은 동등하지 않습니다.
편향이 발생할 수 있습을 측정할 때 비선형 기능의 확률에서 제한된 수의 실험용 샘플을 때에도 이러한 샘플은 진정으로 무작위로 선택에서 기초를 제공하고 있습니다 따라서 샘플링이 편견입니다. 이 바이어스를”제한된 샘플링 바이어스”라고합니다. 우리는 상호 정보의 제한된 샘플링 편향의 예를 아래에 제공 할 것입니다.
통계 및 인과 관계의 결정에 대한 제한된 샘플링의 효과
\(\tag{1}I(X;Y)=\sum_{x,y}P(x,y)\,log_2\frac{P(x,y)}{P(x)\cdot P(y)}\)
그러나,그것을 실천하기 어려울 수 있 측정\(I(X;Y)\)기 때문에 정확한 값을 확률\(P(x),P(y)및 P(x,y)\) 일반적으로 알 수 없습니다. 그것에 쉽게 있을 수 있습니다 원리를 추정하는 이러한 확률에서 관찰된 주파수 분포에서 실험적인 샘플이지만,이것은 일반적으로 리드하는 편견의 추정\(I(X;Y)\,\)는 경우에도 사용되는 샘플을 추정하\(P(x),P(y)및 P(x,y)\)은 자신에게 있는 편견,대표 샘플의 기본적인 분포의\(X\)및\(Y\.\)이 특정 유형의 편견은”제한된 샘플링 바이어스”,그리고 정의된 사이의 차이로 예상되는 가치의 확률 기능에서 계산하여 추정 확률 분포\(N\N)샘플을,그리고 그 값을 계산서 진정한 확률 분포.
림 2:제한된 샘플링 bias. 시뮬레이션의”가치가없는”시스템의 개별 응답 y 이 일정한 분포에 이르기까지 1 10 에 관계없이의 두 값의 상 설명변수 x 을 제시했다. 의 예는 실험적인 응답을 확률이 히스토그램(붉은 단선)샘플링에서 40 200 관측(위쪽 및 아래쪽 행 각각)에서와 같이 왼쪽과 중앙 columns(응답하 x=1x=2 각각). 검은 점선 수평선은 진정한 응답 분포입니다. 오른쪽에 칼럼을 보여줍(블루 히스토그램)분포(5000 시뮬레이션)의 상호 정보를 얻어진 값으로 40(최고)200(아래)에 관찰 각각합니다. 관찰 횟수가 증가함에 따라 제한된 샘플링 바이어스가 감소합니다. 점선은 녹색을 수직 라인에서 바로 열을 나타내는 진정한 가치의 상호 정보를 수행에 의해 시뮬레이션 시스템(는 0bits).
예를 들어,고려한 가상의 응답을 변수를\Y(\)균일하게 배포되는 범위에서 1-10,그리고”설명변수”\(X\)는 추측할 수 있는 값의 1 개 또는 2 개. 우리는 이들은 현실에서 완전히 독립적이며,따라서 관찰하는 값의\(x\)할 수 있는지 예측하는 데 도움이 될 수 있는 값의\(y\.\)그러나\(X\)와\(Y\)사이의 가능한 관계를 검색하는 실험자는 이것을 알지 못합니다. 이 경우 true 조건부 확률\(P(y|x)\)는 0 입니다.1(그림 2A 고 그림 2B,검은 점선)위의 모든 조합\(x\)및\(y\,\)는 것을 의미\(P(y)\)또한 0.1;따라서,진정한 가치의 상호 정보가 null 입니다. 그림 2A 고 그림 2B 보여 실험적 관찰을 주파수(빨간색 곡선)에서 얻은 시뮬레이션과 실험\(N\N)=샘플은 40(20 샘플에 대한 각각의 가치\(x\)). 이 시뮬레이션 된 예에서,샘플은 기본 확률 분포로부터 진정으로 무작위로 정확하게 취해졌으며,따라서 샘플링 편향이 없었다. 그러나 때문에 제한된 샘플링,추정 확률(빨간색의 라인을 도 2A 고 그림 2B)에서 현저히 다르 0.1 고 다른 하나에서,그리고 상호 정보를 추정에 의해 얻을 연결해 실험적으로 획득 추정으로 위의 공식이 null 이 아닌(0.2bits). 반복 시뮬레이션된 실험을 통해,한 획득과 약간 다른 결과를 때마다(그림 2C):정보를 배포에서 계산\(N\N)=40 샘플을 중심으로서 0.202 비트–과하지 않는 진정한 값이 0 비트입니다. 이것은 상호 정보 추정치가 제한된 샘플링 편향을 겪고 있음을 보여줍니다. 샘플 수가 많을수록 추정 확률의 변동이 작아지고 결과적으로 제한된 샘플링 바이어스가 작아집니다. 예를 들어,\(N\)=200 샘플;(\(x\;\)그림 2D-F 의 각 값에 대해 100 샘플),상호 정보의 제한된 샘플링 바이어스는 0.033 비트입니다. 그레인저 인과 관계 및 트랜스퍼 엔트로피와 같은 인과 관계의 측정에도 유사한 문제가 적용됩니다. 제한된 샘플링 바이어스는 상호 정보가 확률의 비선형 함수이기 때문에 발생한다는 점에 유의하십시오. 확률신 것에 의해 영향을 제한 샘플링,바이어스 때문에 그들의 평균을 확률이 많은 반복을 실험한된 수의 데이터입니다.
제한 샘플링 바이어스에 의해 해결할 수 있는 컴퓨팅의 근사화 값을 해석하고 빼는 그것을 밖으로 사용하거나기 전에 정보에 대한 근본적인 확률 분포를 줄이기 위해 통계적 샘플링이 변동(Panzeri et al. 2007).
샘플링 바이어스에서 신경과학
통해 최근 몇 년 동안 증가하고 있었습에 관심을 효과를 샘플링의 편견과 제한된 샘플링 바이어스에서 신경과학이다. 중요한 문제의 감각 신경 과학에서는 방법을 이해하는 데 신경네트워크를 나타내며 환한 감각 정보에 의해 그들의 조정 패턴 자극에 대응하여. 이 문제에 대한 널리 사용되는 경험적 접근법은 뉴런에 의해 방출 된 활동 전위를 세포 외로 기록하는 것입니다. 세포 외 전극은 종종 활동 전위가 감지 될 수 있기 때문에 선택된 뇌 위치에 배치됩니다. 이 절차는 샘플링을 더 큰 뉴런(검출하기 쉬운 신호를 방출 함)과 대부분의 활성 뉴런(Shoham et al. 2006). 이것은 위에서 논의한’편의 샘플링’문제와 다소 관련이 있습니다. 신경 과학자들은 가장 쉽게(“편리하게”)자신의 처분에 방법으로 관찰되는 그 뉴런의 행동을보고 할 가능성이 높습니다. 정정이 이 샘플링 바이어스 필요 녹화에서도 작고 덜 활성 신경 평가,를 사용하여 다양한 형태의 해부학적 및 기능적 정보의 상대적 분포는의 다른 유형의 신경 샘플을 채취했습니다. 이 샘플링 문제의 의미와이를 고려하는 방법은(Shoham et al. 2006). 제한된 샘플링견을 제공 문제를 결정하는 과정에서의 인과 관계를 감각 자극에이고의 특정 기능 신경 인구의 응답을 수 있기 때문에 인위적으로 증가 상호 정보를 사용할 수 있는 복잡한 특성의 신경 반응(명시 정확한 시간이 활동의 잠재력)이상에서 사용할 수 있는 정보 간단의 특징은 신경 활동(같은 사람을 무시한 정보의 임시 구조물의 신경 반응). 이 샘플링 문제의 의미와이를 수정하는 방법은(Panzeri et al. 2007).