Curador: Cesare Magri
Ludovico Carraro
Eugene M. Izhikevich
Stefano Panzeri
Nick Orbeck
Amostragem viés significa que as amostras de uma variável estocástica que são coletadas para determinar a sua distribuição são selecionados incorretamente e não representam a verdadeira distribuição devido a não-aleatória razões. Consideremos um exemplo específico.: podemos querer prever o resultado de uma eleição presidencial através de uma sondagem de opinião. Perguntar a 1000 eleitores sobre as suas intenções de voto pode dar uma previsão bastante precisa do provável vencedor, mas apenas se a nossa amostra de 1000 eleitores é “representativa” do eleitorado como um todo (ou seja, imparcial). Se nós só pesquisar a opinião de 1000 branco de classe média, estudantes universitários, em seguida, os pontos de vista de muitas partes importantes do eleitorado como um todo (minorias étnicas, idosos, trabalhadores manuais) são, provavelmente, sub-representados na amostra, e a nossa capacidade de prever o resultado da eleição de que a amostra é reduzida.numa amostra imparcial, as diferenças entre as amostras colhidas de uma variável aleatória e a sua verdadeira distribuição, ou as diferenças entre as amostras de unidades de uma população e toda a população que representam, devem resultar apenas do acaso. Se suas diferenças não são apenas devido ao acaso, então há um viés de amostragem. O viés de amostragem surge muitas vezes porque certos valores da variável são sistematicamente sub-representados ou sobre-representados em relação à verdadeira distribuição da variável (como no nosso exemplo de pesquisa de opinião acima). Devido à sua natureza consistente, o desvio da amostragem leva a uma distorção sistemática da estimativa da distribuição de probabilidade amostrada. Esta distorção não pode ser eliminada aumentando o número de amostras de dados e deve ser corrigida através de técnicas adequadas, algumas das quais são discutidas a seguir. Em outras palavras, a votação de mais 1000 estudantes brancos universitários não vai melhorar o poder preditivo de nossa pesquisa de opinião, mas a votação de 1000 indivíduos escolhidos aleatoriamente a partir dos cadernos eleitorais seria. Obviamente, uma amostra tendenciosa pode causar problemas na medida de funções de probabilidade (e.g., a variância ou a entropia da distribuição), uma vez que qualquer estatística calculada a partir dessa amostra tem o potencial de ser consistentemente errônea.
Conteúdo
- 1 Causas de amostragem viés
- 2 Correção e redução do viés de amostragem
- 3 viés de Amostragem, erro de amostragem, o viés de função de probabilidade, e limitado de amostragem viés
- 4 O efeito da limitada de amostragem na determinação de estatística e relações de causalidade
- 5 viés de Amostragem em neurociência
- 6 Referências
- 7 ligações Externas
- 8
Causas de amostragem viés
Uma causa comum de amostragem viés está no design do estudo ou na coleta de dados procedimento, ambos os quais podem favorecer ou desfavorecer a coleta de dados de certas classes ou indivíduos ou em certas condições. O viés de amostragem é também particularmente proeminente sempre que os investigadores adoptam estratégias de amostragem baseadas no julgamento ou na conveniência, em que o critério utilizado para seleccionar amostras está de alguma forma relacionado com as variáveis de interesse. Por exemplo, referindo-se novamente para a sondagem de opinião exemplo, um pesquisador acadêmico recolha de opinião de dados podem escolher, por causa da conveniência, para coletar opiniões, principalmente de estudantes universitários, porque eles vivem nas proximidades, e este será mais um viés de amostragem para a opinião prevalente na classe social que vivem no bairro.
Figura 1: Possíveis fontes de viés ocorrendo na seleção de uma amostra de uma população.
em Ciências Sociais e económicas, a extracção de amostras aleatórias requer normalmente um quadro de amostragem, como a lista das unidades de toda a população, ou alguma informação auxiliar sobre algumas características-chave da população-alvo a amostrar. Por exemplo, a realização de um estudo sobre escolas primárias em um determinado país requer a obtenção de uma lista de todas as escolas do país, a partir da qual uma amostra pode ser extraída. No entanto, a utilização de uma base de amostragem não impede necessariamente o desvio da amostragem. Por exemplo, pode-se não determinar correctamente a população-alvo ou utilizar informações desactualizadas e incompletas, excluindo assim secções da população-alvo. Além disso, mesmo quando a base de amostragem é seleccionada correctamente, o desvio de amostragem pode surgir de unidades de amostragem não sensíveis (por exemplo, certas classes de indivíduos podem ser mais susceptíveis de se recusarem a participar, ou podem ser mais difíceis de contactar, etc.).) As não-respostas são particularmente prováveis de causar viés sempre que a razão da não-resposta está relacionada com o fenômeno em estudo. A figura 1 ilustra como as discrepâncias entre o quadro de amostragem e a população-alvo, bem como as não-respostas, podem influenciar a amostra.
Em experimentos em ciências físicas e biológicas, viés de amostragem, muitas vezes, ocorre quando o alvo da variável a ser medida durante o experimento (por exemplo, a energia de um sistema físico) é correlacionada com outros fatores (por exemplo, a temperatura do sistema) que são mantidos fixos ou confinados dentro de uma amplitude controlada durante o experimento. Considere, por exemplo, a determinação da distribuição de probabilidade da velocidade de todos os carros nas estradas Britânicas a qualquer momento durante um determinado dia. A velocidade está definitivamente relacionada com a localização: portanto, medir a velocidade apenas em certos tipos de locais pode distorcer a amostra. Por exemplo, se todas as medidas forem tomadas em cruzamentos de tráfego movimentados no centro da cidade, a distribuição amostrada das velocidades dos automóveis não será representativa dos automóveis britânicos e será fortemente tendenciosa para velocidades lentas, porque negligencia os carros que viajam em auto-estradas e noutras estradas rápidas. É importante notar que uma distorção sistemática de uma distribuição amostrada de uma variável aleatória pode resultar também de outros fatores que não o viés da amostragem, como um erro sistemático nos instrumentos utilizados para recolher os dados da amostra. Considerando novamente o exemplo da distribuição da velocidade dos carros na Grã-Bretanha, e suponha que o experimentador tenha acesso à leitura simultânea dos velocímetros colocados em cada carro, de modo que não haja viés de amostragem. Se a maioria dos speedómetros são ajustados para sobrestimar a velocidade, e para sobrestimá-la mais a maior velocidade, então a distribuição resultante amostrada será tendenciosa para altas velocidades. correcção e redução do enviesamento de amostragem
para reduzir o enviesamento de amostragem, as duas etapas mais importantes na concepção de um estudo ou de uma experiência São i) evitar julgamentos ou amostragem de conveniência ii) para garantir que a população-alvo é adequadamente definida e que a base de amostragem corresponde tanto quanto possível. Quando recursos finitos ou razões de eficiência limitam a possibilidade de amostrar toda a população, deve ter-se o cuidado de assegurar que as populações excluídas não diferem da população global em termos das estatísticas a medir. Em Ciências Sociais, pesquisas representativas da população geralmente não são amostras aleatórias simples, mas seguem desenhos de amostras mais complexos (Cochran 1977). Por exemplo, num inquérito típico às famílias, uma amostra das famílias é seleccionada em duas fases.: numa primeira fase há uma seleção de aldeias ou partes de cidades (cluster) e numa segunda fase um conjunto de famílias é selecionado dentro do mesmo cluster. Ao adotar tais projetos complexos de amostras, é essencial garantir que a informação sobre a base de amostras é utilizada corretamente e que a probabilidade e seleção aleatória são implementadas e documentadas em cada fase do processo de amostragem. Com efeito, essas informações serão essenciais para calcular estimativas imparciais para a população utilizando pesos de amostragem (o inverso da probabilidade de selecção) e tendo em conta a concepção da amostragem, a fim de calcular correctamente o erro de amostragem. Nos desenhos complexos das amostras, o erro de amostragem será sempre maior do que nas amostras aleatórias simples (Cochran 1977).sempre que a base de amostragem incluir unidades que já não existem (por exemplo, porque os quadros de amostra estão incorrectos e desactualizados), será impossível obter amostras dessas unidades não existentes. Esta situação não distorce as estimativas, desde que tais casos não sejam substituídos por métodos não aleatórios e que os pesos de amostragem originais sejam devidamente ajustados para ter em conta essas imperfeições do quadro de amostragem (no entanto, as imperfeições do quadro de amostragem têm claramente implicações em termos de custos e, se a dimensão da amostra for reduzida, isso também influencia a dimensão do erro de amostragem).
As soluções para o viés devido à não-resposta são muito mais articuladas ,e podem geralmente ser divididas em soluções ex ante e ex-post (Groves et al. 1998). Soluções Ex ante tentam prevenir e minimizar a não Resposta de várias maneiras (por exemplo, treinamento específico de enumeradores, várias tentativas de entrevistar o respondente, etc.) considerando que, ex-post soluções tentar reunir informações auxiliares sobre a não-respondentes que é então utilizado para calcular a probabilidade de resposta para diferentes subgrupos da população e portanto re-peso dados de resposta para o inverso de tal probabilidade ou, alternativamente, alguns pós-estratificação e de calibração.
viés de Amostragem, erro de amostragem, o viés de função de probabilidade, e limitado de amostragem viés
O conceito de viés de amostragem não deve ser confundida com outras distintas, mas relacionadas a conceitos como “amostragem de erro”, “viés de uma probabilidade funcional” e “limitada viés de amostragem”. O erro de amostragem de uma distribuição de probabilidade funcional (como a variância ou a entropia da distribuição) é a diferença entre a estimativa da função de probabilidade calculada sobre a distribuição amostrada e o valor correto da função calculada sobre a distribuição verdadeira. O viés de uma distribuição funcional de probabilidade é definido como o valor esperado do erro de amostragem. O viés de amostragem pode levar a um viés de uma probabilidade funcional. No entanto, os dois conceitos não são equivalentes.
um viés pode surgir ao medir uma funcionalidade não linear das probabilidades a partir de um número limitado de amostras experimentais, mesmo quando estas amostras são realmente colhidas aleatoriamente da população subjacente e, portanto, não há viés de amostragem. This bias is called “limited sampling bias”. Vamos dar abaixo um exemplo do limitado viés de amostragem da informação mútua.
o efeito de amostragem limitada na determinação de relações estatísticas e causais
\(\tag{1}i (X;Y) = \sum_{x,y} P(x,y) \, log_2 \frac{P(x,y)}{P(x) \cdot P(y)}\)
no Entanto, na prática pode ser difícil de medir \(I(X;Y)\), porque os valores exatos das probabilidades \(P(x), P(y) e P(x,y)\) são geralmente desconhecidos. Pode ser fácil, em princípio, para estimar estas probabilidades a partir de distribuições de freqüência observada em amostras experimentais, mas isso geralmente leva a tendencioso estimativas de \(I(X;Y)\ ,\), mesmo se as amostras utilizadas para estimar \(P(x), P(y) e P(x,y)\) são eles próprios imparcial, amostras representativas das distribuições subjacentes de \(X\) e \(Y\ .\) Este tipo de viés é chamado de o “limitado viés de amostragem”, e é definido como a diferença entre o valor esperado da probabilidade funcional calculados a partir das distribuições de probabilidade estimada com \(N\) amostras, e o seu valor calculado a partir do verdadeiro distribuições de probabilidade.
Figura 2: O limitado viés de amostragem. Simulation of an “uninformative” system whose discrete response y is distributed with a uniform distribution ranging from 1 to 10, regardless of which of two values of a putative explanatory variable x were presented. Exemplos de histogramas de probabilidade de resposta empírica (linhas sólidas vermelhas) amostrados a partir de 40 e 200 observações (linha superior e inferior, respectivamente) são mostrados nas colunas esquerda e Central (respostas a x = 1 e x = 2, respectivamente). A linha horizontal pontilhada a preto é a verdadeira distribuição de resposta. A coluna direita mostra (sob a forma de histogramas azuis) a distribuição (mais de 5000 simulações) dos valores de informação mútua obtidos com 40 (top) e 200 (bottom) observações, respectivamente. À medida que o número de observações aumenta, o limitado viés de amostragem diminui. A linha vertical a verde tracejada nas colunas à direita indica o valor verdadeiro da informação mútua transportada pelo sistema simulado (que é igual a 0 bits).
por exemplo, considere uma variável de resposta hipotética \(Y\) que é uniformemente distribuída na gama 1-10, e uma “variável explicativa” \(X\) que pode assumir valores de 1 ou 2. Vamos assumir que estes são na realidade completamente independentes um do outro, e, portanto, observando os valores de \(x\) não pode ajudar a prever os valores prováveis de \(y\ .\ ) No entanto, um experimentalista à procura de possíveis relações entre \(X\) e \(Y\) não sabe disso. Neste caso, a verdadeira probabilidade condicional \(P (y / x)\) é 0.1 ( Figura 2A e Figura 2B, preto linha pontilhada) para todas as combinações de \(x\)e \(y\ ,\) o que significa que \(P(y)\) é também 0.1; consequentemente, o verdadeiro valor da informação mútua é nulo. As figuras 2A e 2B mostram as frequências de observação experimentais (curvas vermelhas) obtidas a partir de uma experiência simulada com \(n\)= 40 amostras (20 amostras para cada valor de \(x\)). Neste exemplo simulado, as amostras foram colhidas aleatoriamente e corretamente a partir das distribuições de probabilidade subjacentes, e assim não houve viés de amostragem. No entanto, devido à amostragem limitada, as probabilidades estimadas (linha vermelha da figura 2A e da figura 2B) diferem marcadamente de 0,1 e de um para o outro, e a estimativa da informação mútua obtida por ligar as estimativas obtidas experimentalmente na fórmula acima não é nula (0,2 bits). Repetindo a experiência simulada vezes sem conta, obtém – se resultados ligeiramente diferentes de cada vez ( figura 2C): a distribuição de informação calculada a partir de \(n\)= 40 amostras é centrada em 0.202 bits-e não no valor verdadeiro de 0 bits. Isto mostra que a estimativa da informação mútua sofre de um enviesamento limitado de amostragem. Quanto maior for o número de amostras, menores serão as flutuações das probabilidades estimadas e, consequentemente, menores serão os desvios de amostragem limitados. Por exemplo, com \(n\)= 200 amostras; (100 amostras para cada valor de \(x\ ;\) figura 2D-F), O viés limitado de amostragem da informação mútua é de 0,033 bits. Problemas semelhantes também se aplicam a medidas de relações causais como a causalidade Granger e a entropia de transferência. Note que o viés limitado de amostragem surge porque a informação mútua é uma função não linear das probabilidades. As probabilidades em si não seriam afetadas por um viés limitado de amostragem, porque elas seriam médias para as verdadeiras probabilidades sobre muitas repetições do experimento com um número finito de dados.
O viés de amostragem limitado pode ser corrigido computando o seu valor aproximado analiticamente e subtraindo-o, ou usando informação prévia sobre as distribuições de probabilidade subjacentes para reduzir as suas flutuações de amostragem estatística (Panzeri et al. 2007).
amostragem parcial em neurociência
nos últimos anos tem havido um interesse crescente no efeito de amostragem parcial e de amostragem limitada em neurociência. Um problema importante na neurociência sensorial é entender como as redes de neurônios representam e trocam informações sensoriais por meio de seu padrão coordenado de resposta a estímulos. Uma abordagem empírica amplamente utilizada para este problema é gravar extracelularmente os potenciais de ação emitidos pelos neurônios. Eletrodos extracelulares são frequentemente colocados em uma localização cerebral selecionada porque potenciais de ação podem ser detectados. É reconhecido que este procedimento pode viés de amostragem para maiores neurônios (que emitem sinais que são mais fáceis de detectar) e para com mais neurônios ativos (Shoham et al. 2006). Isto está de certa forma relacionado com o problema da “amostragem de conveniência” acima referido. Os neurocientistas são mais propensos a relatar o comportamento dos neurônios que são mais facilmente observados (“convenientemente”) com os métodos à sua disposição. Corrigir este viés de amostragem requer também o registro de neurônios menores e menos ativos e avaliar, usando vários tipos de informação anatômica e funcional, as distribuições relativas de diferentes tipos de populações neurais. As implicações deste problema de amostragem e as formas de o ter em conta são discutidas em (Shoham et al. 2006). A amostragem limitada viés dá problemas na determinação da relação causal entre estímulos sensoriais e certas características da população neuronal respostas, porque ele pode aumentar artificialmente a troca de informações disponíveis no complexo caracterizações dos neuronal respostas (tais como aqueles com base em horários precisos de potenciais de ação) sobre as informações disponíveis no mais simples caracterização da actividade neuronal (tais como aqueles que negligenciam os detalhes da estrutura temporal da resposta neuronal). As implicações deste problema de amostragem e maneiras de corrigir para ele são discutidos em (Panzeri et al. 2007).