キュレーター:チェーザレ-マグリ
Ludovico Carraro
ユージン-M.Izhikevich
ステファノ-パンツェリ
nick orbeck
サンプリングバイアスとは、分布を決定するために収集される確率変数のサンプルが誤って選択され、非ランダムな理由のため 具体的な例を考えてみましょう: 私たちは、世論調査によって大統領選挙の結果を予測したいかもしれません。 投票の意図について1000人の有権者に尋ねると、1000人の有権者のサンプルが有権者全体の”代表者”である場合にのみ、可能性の高い勝者のかなり正確な予 1000人の白人中産階級の大学生の意見だけを世論調査すると、有権者の多くの重要な部分(少数民族、高齢者、ブルーカラー労働者)の意見がサンプルで過小評価される可能性が高く、そのサンプルから選挙の結果を予測する能力が低下します。
不偏標本では、確率変数から取得した標本とその真の分布の差、または母集団からの単位の標本とそれらが表す母集団全体の差は、偶然にのみ結 それらの違いが偶然によるものではない場合、サンプリングバイアスがあります。 サンプリングバイアスは、変数の特定の値が、変数の真の分布に関して体系的に過小表現または過剰表現されているために発生することがよくあ その一貫した性質のため、サンプリングバイアスは、サンプリングされた確率分布の推定値の体系的な歪みにつながります。 この歪みは、データサンプルの数を増やすことによって除去することはできず、適切な手法によって補正する必要があります。 言い換えれば、追加の1000人の白人大学生を投票することは、私たちの世論調査の予測力を向上させることはありませんが、選挙ロールから無作為に選ばれた1000人を投票することはできます。 明らかに、バイアスされたサンプルは、確率汎関数の尺度に問題を引き起こす可能性があります(例: そのサンプルから計算された統計は一貫して誤りである可能性があるため、分散または分布のエントロピー)。
内容
- 1サンプリングバイアスの原因
- 2サンプリングバイアスの補正と削減
- 3サンプリングバイアス、サンプリング誤差、確率関数のバイアス、および制限されたサンプリングバイアス
- 4統計的および因果関係の決定に及ぼす制限されたサンプリングの影響
- 5神経科学におけるサンプリングバイアス
- 6参考文献
- 7外部リンク
- 8も参照してください
サンプリングバイアスの原因
サンプリングバイアスの一般的な原因は、研究の設計ま いずれも、特定のクラスまたは個人から、または特定の条件でデータを収集することを支持または拒否する可能性があります。 サンプリングバイアスは、研究者がサンプルを選択するために使用される基準が何らかの形で関心のある変数に関連している判断や利便性に基づ 例えば、再び世論調査の例を参照すると、意見データを収集する学術研究者は、利便性のために、彼らは近くに住んでいるため、主に大学生から意見を収集
図1:母集団からのサンプルの選択に発生するバイアスの可能性のある原因。
社会経済科学では、ランダムサンプルを抽出するには、一般的に、人口全体の単位のリスト、またはサンプリングされるターゲット母集団のいず たとえば、特定の国の小学校に関する調査を行うには、その国のすべての学校のリストを取得する必要があり、そこからサンプルを抽出できます。 ただし、サンプリングフレームを使用しても、必ずしもサンプリングバイアスを防ぐとは限りません。 例えば、標的母集団の正確な決定に失敗したり、古くて不完全な情報を使用したりすることで、標的母集団のセクションを除外することができます。 さらに、サンプリングフレームが適切に選択されている場合でも、サンプリングバイアスは、応答性のないサンプリングユニットから発生する可能性があります(例えば、特定のクラスの被験者が参加を拒否する可能性が高くなるか、連絡が困難になる可能性がありますなど)。)非応答の理由が研究中の現象に関連しているときはいつでも、非応答は特にバイアスを引き起こす可能性があります。 図1は、サンプリングフレームとターゲット母集団、および非応答の間の不一致が、サンプルにどのように偏りがあるかを示しています。
物理科学および生物科学の実験では、サンプリングバイアスは、実験中に測定される目標変数(物理システムのエネルギーなど)が、実験中に一定または制御された範囲内に閉じ込められた他の要因(システムの温度など)と相関している場合によく発生します。 例えば、特定の日の間にいつでも英国の道路上のすべての車の速度の確率分布の決定を考えてみましょう。 したがって、特定のタイプの場所でのみ速度を測定すると、サンプルに偏りが生じる可能性があります。 例えば、市内中心部の混雑した交通ジャンクションですべての措置が取られた場合、サンプリングされた車の速度の分布は英国の車を代表するものではなく、高速道路や他の高速道路を走行する車を無視するため、低速に強く偏っています。 標本化された確率変数の分布の系統的な歪みは、標本データの収集に使用された計測器の系統的誤差など、標本化バイアス以外の要因にも起因する可能性があることに注意することが重要です。 再び英国の車の速度の分布の例を考慮し、サンプリングバイアスがないように、実験者は、すべての車に配置された速度計の同時読み取りへのアクセ ほとんどの速度計が速度を過大評価し、より高い速度でより過大評価するように調整されている場合、結果として得られるサンプリング分布は高
サンプリングバイアスの補正と低減
サンプリングバイアスを低減するために、研究や実験を設計する際の最も重要な二つのステップは、(i)判断や利便性のサンプリングを避けるため(ii)ターゲット母集団が適切に定義され、サンプルフレームが可能な限り一致することを保証することである。 限られた資源または効率の理由が母集団全体をサンプリングする可能性を制限する場合、除外された母集団が測定される統計の点で全体の母集団と異ならないように注意する必要があります。 社会科学では、人口代表的な調査は、最も一般的には単純なランダムサンプルではなく、より複雑なサンプルデザインに従っています(Cochran1977)。 例えば、典型的な世帯調査では、世帯のサンプルは二つの段階で選択されます: 第一段階では、村または都市の一部(クラスター)の選択があり、第二段階では、同じクラスター内で設定された世帯数が選択されます。 このような複雑なサンプル設計を採用する場合、サンプルフレーム情報が適切に使用され、確率とランダム選択がサンプリングプロセスの各段階で実 実際、このような情報は、サンプリング誤差を適切に計算するために、サンプリング重み(選択確率の逆数)を使用し、サンプリング設計を考慮して母集団の不偏推定値を計算するために不可欠です。 複雑なサンプル計画では、サンプリング誤差は常に単純なランダムサンプルよりも大きくなります(Cochran1977)。
サンプリングフレームにもう存在しないユニットが含まれている場合(たとえば、サンプルフレームが正しくなく、古くなっているため)、そのような このような場合は、非ランダムな方法を使用して置換されておらず、元のサンプリング重みは、このようなサンプルフレームの欠陥を考慮に入れるよう
非応答によるバイアスに対する解は、はるかに明確であり、一般的に元解と元後解に分けることができる(Groves et al. 1998). Ex-anteソリューションは、さまざまな方法で非応答を防止し、最小化しようとします(例えば、列挙者の特定の訓練、回答者にインタビューするいくつかの試み)ex-postソリューションは、その後、異なる母集団サブグループの応答の確率を計算するために使用される非回答者に関する補助情報を収集しようとするのに対し、そのような確率の逆数、または代わりにいくつかのポスト成層とキャリブレーションのための応答データを再重みづけする。
サンプリングバイアス、サンプリング誤差、確率関数のバイアス、および制限されたサンプリングバイアス
サンプリングバイアスの概念は、”サンプリングエラー”、”確率関数のバイアス”、”制限されたサンプリングバイアス”などの他の関連するが異なる概念と混同すべきではない。 確率分布の関数のサンプリング誤差(分布の分散やエントロピーなど)は、サンプリングされた分布で計算された確率関数の推定値と、真の分布で計算された関数の正しい値との差です。 確率分布の汎関数のバイアスは、サンプリング誤差の期待値として定義されます。 サンプリングバイアスは、確率汎関数のバイアスにつながる可能性があります。 ただし、この2つの概念は同等ではありません。
バイアスは、限られた数の実験サンプルからの確率の非線形汎関数を測定するときに、これらのサンプルが基礎となる母集団から真に無作為に選 このバイアスは”限定サンプリングバイアス”と呼ばれます。 以下に、相互情報の限られたサンプリングバイアスの例を示します。 統計的および因果関係の決定に及ぼす制限されたサンプリングの影響
\(\tag{1}I(X))\(\tag{1}I(X))\(\tag{1}I(X))\(\tag{1}I(X))\);しかし、実際には、確率\(P(X),p(y),P(x,y)\)の正確な値は通常不明であるため、\(I(x;Y)\)を測定するのは難しい場合があります。\(\sum_{x,y}P(x,y)\,log_2\frac{P(X,y)}{P(x,y)\cdot P(y)}\)は、\(p(x),P(y),P(x,y)\)の正確な値は通常不明であるため、実際には\(I(x;Y)\)を測定することは困難である可能性があります。 実験サンプルの観測された頻度分布からこれらの確率を推定することは原理的には容易であるかもしれないが、これは通常、\(P(X),P(y),P(x,y)\)を推定するために使用されるサンプルがそれ自体不偏であり、\(X\)と\(Y\)の基礎となる分布の代表的なサンプルであっても、\(I(x;Y)\,\)のバイアスされた推定につながる。\)この特定のタイプのバイアスは、「制限されたサンプリングバイアス」と呼ばれ、\(N\)サンプルで推定された確率分布から計算された確率関数の期待値と、真の確率分布から計算されたその値との差として定義されます。\(N\)サンプルで推定された確率分布から計算された確率関数の期待値との差として定義されます。\(N\)
図2:制限されたサンプリングバイアス。 推定説明変数xの二つの値のどちらが提示されたかにかかわらず、離散応答yが1から10の範囲の一様分布で分布する”非情報的”システムのシミュレーション。 40と200の観測からサンプリングされた経験的応答確率ヒストグラム(赤の実線)の例(それぞれ上と下の行)は、左と中央の列(それぞれx=1とx=2に対する応答)に示されている。 黒い点線の水平線は、真の応答分布です。 右の列は、それぞれ40(上)と200(下)の観測で得られた相互情報値の分布(5000以上のシミュレーション)を(青いヒストグラムとして)示しています。 観測数が増加するにつれて、制限されたサンプリングバイアスは減少します。 右の列の緑色の破線は、シミュレートされたシステムによって運ばれる相互情報の真の値(0ビットに等しい)を示します。例として、1〜10の範囲で一様に分布する仮説的な応答変数\(Y\)と、1または2のいずれかの値を想定できる「説明変数」\(X\)を考えてみましょう。 これらは実際には互いに完全に独立していると仮定して、\(x\)の値を観察することは\(y\)の可能性の高い値を予測するのに役立ちません。\)しかし、\(X\)と\(Y\)の間の可能な関係を探している実験主義者はこれを知らない。 この場合、真の条件付き確率\(P(y|x)\)は0です。\(X\)と\(y\,\)のすべての組み合わせについて、\(P(y)\)も0.1であることを意味し、したがって、相互情報の真の値はnullです。 図2Aと図2Bは、\(N\)=40サンプル(\(x\)の各値に対して20サンプル)のシミュレーション実験から得られた実験観測頻度(赤い曲線)を示しています。 このシミュレートされた例では、サンプルは基礎となる確率分布から真にランダムかつ正確に採取されたため、サンプリングバイアスはありませんでした。 しかし、サンプリングが限られているため、推定確率(図2Aと図2Bの赤い線)は0.1と互いに著しく異なり、実験的に得られた推定値を上記の式に シミュレートされた実験を何度も繰り返すと、毎回わずかに異なる結果が得られます(図2C)。\(N\)=40サンプルから計算された情報分布は、0ビットの真の値ではなく、0.202ビットに集中しています。 これは,相互情報推定値が限られたサンプリングバイアスに苦しんでいることを示している。 サンプル数が多いほど、推定確率の変動が小さくなり、結果的に制限されたサンプリングバイアスが小さくなります。 たとえば、\(N\)=200サンプル;(\(x\;\)図2D-Fの各値に対して100サンプル)の場合、相互情報の制限されたサンプリングバイアスは0.033ビットです。 同様の問題は、グレンジャー因果関係や転送エントロピーなどの因果関係の尺度にも適用されます。 制限されたサンプリングバイアスは、相互情報が確率の非線形関数であるために生じることに注意してください。 確率自体は、有限数のデータを使用して実験の多くの繰り返しにわたって真の確率に平均するため、制限されたサンプリングバイアスによって影響されません。
制限されたサンプリングバイアスは、近似値を解析的に計算して減算するか、基礎となる確率分布に関する事前情報を使用して統計的なサンプリングゆらぎを減少させることによって補正することができる(Panzeri et al. 2007).
神経科学におけるサンプリングバイアス
近年、神経科学におけるサンプリングバイアスと限られたサンプリングバイアスの効果に 感覚神経科学における重要な問題は、ニューロンのネットワークが刺激に対する応答の協調パターンによって感覚情報をどのように表現し、交換するかを理解することである。 この問題に広く使用されている経験的アプローチは、ニューロンによって放出される活動電位を細胞外に記録することである。 細胞外電極は、活動電位が検出されることができるので、選択された脳の場所に配置されることが多い。 この手順は、より大きなニューロン(検出が容易な信号を放出する)および最も活性なニューロンに向かってサンプリングをバイアスし得ることが認識されている(Shoham et al. 2006). これは、上記の”便利なサンプリング”の問題に多少関連しています。 神経科学者は、それらの方法で最も簡単に(「便利に」)観察されるそれらのニューロンの行動を報告する可能性がより高い。 このサンプリングバイアスを補正するには、より小さく、より活動的でないニューロンからも記録し、様々なタイプの解剖学的および機能的情報を使用して、異なるタイプの神経集団の相対分布を評価する必要がある。 このサンプリング問題の意味とそれを考慮に入れる方法は、(Shoham e t a l. 2006). 限られたサンプリングバイアスは,神経応答の時間的構造の詳細を無視するような神経活動の簡単な特性評価で利用可能な情報よりも,神経応答の複雑な特性化(活動電位の正確な時間に基づくものなど)で利用可能な相互情報を人為的に増加させる可能性があるため,感覚刺激と神経集団応答の特定の特徴との因果関係の決定において問題を与える。 このサンプリング問題の意味とそれを修正する方法は、(Panzeri et al. 2007).