El alelo menor es el alelo menos frecuente en la población de un sitio variable. En primer lugar, describimos dos enfoques principales para estimar la frecuencia de alelos menores (MAF) en un sitio particular del genoma. El primer enfoque implica inferir genotipos individuales y tratar los genotipos inferidos como completamente precisos al estimar el MAF. A continuación, examinamos el rendimiento de un marco de verosimilitud que tiene en cuenta directamente la incertidumbre en la asignación de genotipos. A lo largo de nuestro trabajo, asumimos que todos los sitios segregados son bialélicos.
Una forma de estimar el MAF a partir de datos de secuenciación de próxima generación es llamar primero a un genotipo para cada individuo utilizando datos de secuenciación, y luego usar esos genotipos como si fueran los verdaderos. Este fue el enfoque utilizado tradicionalmente para los datos de genotipos y los datos de secuenciación de Sanger. No está claro qué tan bien funcionará cuando se aplique a datos de secuenciación de próxima generación.
Se puede utilizar un enfoque de máxima verosimilitud para inferir el genotipo de cada individuo a partir de los datos de secuenciación de próxima generación. En cada sitio j, para cada individuo i, la probabilidad para cada uno de los tres genotipos posibles (suponiendo que conocemos el alelo menor) se da como:
(1)
donde D i,j son los datos de secuenciación observados en el individuo i en el sitio j, g i , j ∈ {0, 1, 2} es el número de alelos menores contenidos en el genotipo de cada individuo, yy control para errores de secuenciación y calidades base de lectura, respectivamente. Los datos de secuenciación observados para cada individuo se pueden considerar como la alineación de las lecturas en el sitio j teniendo en cuenta las puntuaciones de calidad de lectura. Esto se representa como la probabilidad de genotipo y se encuentra en el archivo de probabilidad de genotipo (GLF) que se produce en muchos programas que analizan datos de secuenciación de próxima generación, como SOAPsnp y MAQ .
Para asignar un genotipo a un individuo en particular, se puede calcular la probabilidad de cada uno de los tres genotipos posibles para el individuo. Entonces se puede asignar el genotipo con mayor probabilidad. Sin embargo, los investigadores a menudo prefieren un criterio de llamada más estricto y no asignarán un genotipo a un individuo a menos que el genotipo más probable sea sustancialmente más probable que el segundo más probable. Aquí los tres genotipos posibles se ordenan por sus probabilidades: , donde g(k)corresponde al genotipo con la k-ésima mayor probabilidad. Con un umbral dado f, se puede llamar al genotipo g (1) if . De lo contrario, no se llama a un genotipo y se considera que falta el genotipo del individuo. Un valor umbral común de f es 1, lo que indica que el genotipo más probable es al menos 10 veces más probable que el segundo genotipo más probable. Tenga en cuenta que este tipo de filtrado puede resultar en una mayor confianza para el genotipo «llamado», pero también resulta en más datos faltantes.
Estimador de máxima verosimilitud de la frecuencia de alelos
En lugar de estimar el MAF a partir de los llamados genotipos, un método de máxima verosimilitud (ML) introducido por Kim et al. (véase también Lynch para un enfoque similar) estima directamente los FMA y tiene en cuenta la incertidumbre del genotipo. Específicamente, dado un alelo menor, la probabilidad de observar los datos de secuencia en cada individuo i se obtiene sumando las probabilidades correspondientes a los tres genotipos posibles.
Supongamos que las tres probabilidades de genotipo definidas en la Ecuación 1 están disponibles. Usando la misma notación que la anterior, sean D j y p j los datos de secuenciación observados en el sitio j y el MAF correspondiente, respectivamente. La probabilidad de genotipo dada la frecuencia de alelos menores se puede calcular asumiendo el equilibrio de Hardy-Weinberg (HWE). Entonces, asumiendo la independencia entre individuos, la probabilidad del MAF en este locus es un producto de todas las probabilidades calculadas a través de todos los N individuos:
(2)
La estimación de ML de p j se puede calcular maximizando directamente la probabilidad de un espacio de parámetros restringido Método de Shanno (BFGS) o mediante el algoritmo de maximización de expectativas (EM). Cuando se utiliza el algoritmo EM, se calcula la expectativa posterior de un genotipo para cada individuo, y la media de esos posteriores se actualiza repetidamente. Nuestra implementación de BFGS fue más rápida que el algoritmo EM. Por ejemplo, para obtener estimaciones de 100,000 sitios, los BFG tomaron ~16 segundos, pero los EM tomaron ~100 segundos. Sin embargo, la diferencia en la velocidad puede ser específica de la implementación. En nuestro caso, para ambos métodos, dejamos de actualizar los parámetros cuando el aumento de la probabilidad era inferior a 0,001.
Estimador de máxima verosimilitud con alelo menor incierto
En la práctica, a menudo el segundo nucleótido más común entre los individuos se puede usar como alelo menor. Sin embargo, para SNPs raros (por ejemplo, MAF < 1%), es difícil determinar qué alelo es el alelo menor, ya que los cuatro nucleótidos pueden aparecer en algunas lecturas debido a errores de secuenciación. Para hacer frente a esta situación, ahora describimos un marco de probabilidad que tiene en cuenta la incertidumbre en la determinación del alelo menor.
Supongamos que para el sitio j conocemos el alelo mayor M. Tenga en cuenta que decidir cuál de los dos alelos comunes es probable que sea el mayor no es importante, ya que nos preocupa principalmente estimar las frecuencias en SNP raros. Además, para alelos con frecuencias intermedias (alrededor del 50%), la distinción entre alelos mayor y menor es menos importante. Asigne los otros tres nucleótidos no principales m1, m2 y m3. La verosimilitud introducida en la Ecuación 2 asume un alelo mayor fijo M y un alelo menor fijo m. Por lo tanto, para permitir la incertidumbre en la designación del alelo menor, la función de verosimilitud se puede modificar como:
(3)
Además, suponiendo que cualquiera de los tres posibles menor alelos es igualmente probable, obtenemos:
(4)
donde . Dado que puede ser muy pequeño con grandes conjuntos de datos (por ejemplo, con muchos individuos), es útil calcular la probabilidad en la escala logarítmica. Ordene las tres probabilidades de registro condicionales como (l(1), l(2), l(3)), donde l(1) es la mayor. Luego,
Prueba G usando genotipos llamados para mapeo de asociación
En estudios de asociación, se dice que los SNP que muestran diferencias significativas en la frecuencia de los alelos entre los casos y los controles están asociados con el fenotipo de interés. El mapeo de asociaciones se puede realizar utilizando datos de estudios de secuenciación de próxima generación. Primero discutimos los enfoques que requieren llamar a genotipos individuales y luego realizamos una prueba de asociación utilizando los genotipos llamados. En este enfoque, se llama primero a un genotipo para cada individuo. Los genotipos pueden filtrarse o no. Asumiendo la independencia entre individuos y HWE, se puede construir una tabla de contingencia de 2 × 2 contando el número de alelos mayores y menores tanto en los casos como en los controles. Esto conduce a la conocida prueba de razón de verosimilitud para la independencia, la prueba G:
(5)
donde O k,h es la frecuencia observada en una celda, y E k,h es la frecuencia esperada bajo la hipótesis nula en la que la frecuencia alélica es la misma entre casos y controles. La conocida prueba chi-cuadrado de Pearson es asintóticamente equivalente a la prueba G. Si la tabla se genera a partir de genotipos verdaderos, el estadístico G sigue asintóticamente una distribución chi-cuadrado con 1 grado de libertad (χ2(1)). Sin embargo, en nuestros estudios, construimos el estadístico G utilizando genotipos «llamados», por lo que es posible que el HWE no se mantenga debido a la sobre-y sub – llamada de los heterocigotos. Además, la construcción de la estadística de la prueba contando genotipos» llamados » en lugar de genotipos «observados» probablemente introduce variabilidad adicional. Por lo tanto, la teoría estadística puede no ser válida más. Tenga en cuenta que cuando no se llama a un genotipo para un individuo determinado, los datos se consideran faltantes y no se incluyen en la tabla de 2 × 2.
Prueba de razón de verosimilitud que tiene en cuenta la incertidumbre en los genotipos observados para el mapeo de asociación
En lugar de llamar a los genotipos, el marco de verosimilitud permite la incertidumbre en los genotipos y las pruebas en cada sitio j si la frecuencia de los alelos es la misma entre los casos y los controles. Formalmente, calculamos la probabilidad de las hipótesis H O: p j, 1 = p j, 2 (=p j ,0) y H A : p j ,1 ≠ p j ,2, donde p j ,1 y p j ,2 son de la MAFs en casos y controles, respectivamente.
Suponiendo que se conocen los alelos menores (m) y mayores (M), la probabilidad de la frecuencia del alelo menor se puede calcular como se describe en la Ecuación 2, y la estadística de la prueba de razón de verosimilitud se calcula como:
(6)
donde y son los datos observados para los casos y controles, respectivamente, y y son los Emv de la MAFs en casos y controles, respectivamente.
Si el alelo menor es desconocido, la probabilidad bajo la hipótesis nula se calcula como en la Ecuación 3, y la estadística de TRL se modifica como:
(7)
donde D j es los datos observados para ambos casos y controles, y es la frecuencia del alelo bajo la hipótesis nula. Otras notaciones son las mismas que en la ecuación 6.
Estimación de MAF en datos simulados
Comparamos las estimaciones de la frecuencia de los alelos en datos simulados utilizando genotipos verdaderos (True), llamados genotipos sin filtrado (Llamada NF), llamados genotipos con filtrado (f = 1; Llamada F) y el método de máxima verosimilitud (ML). Para SNPs raros, el tipo de alelo menor a menudo no es aparente. Al llamar a genotipos, se supone que el segundo nucleótido más común es el alelo menor. El método ML incorpora directamente la incertidumbre en la determinación del alelo menor y, a menos que se indique lo contrario, se muestran los resultados utilizando el método del alelo menor desconocido (Ecuación 3). Tenga en cuenta que el método alelo menor desconocido ML funciona de manera similar al método alelo menor conocido ML, pero el primero es mejor para SNPs muy raros (archivo adicional 1).
Primero evaluamos qué tan bien los diferentes enfoques fueron capaces de estimar el MAF en 200 individuos en un rango de profundidades de secuenciación para 1,000 SNPs con un MAF verdadero del 5%. La Figura 1 muestra cuadros de distribución de los FMA estimados utilizando los cuatro enfoques diferentes. Como se esperaba, para datos de mayor cobertura, como una profundidad individual de 12×, todos los métodos funcionan tan bien como cuando los genotipos se conocen con certeza (Verdadero). Sin embargo, cuando la profundidad disminuye, las estimaciones del MAF obtenidas por los genotipos de primera llamada se sesgan. Por ejemplo, la mediana de MAF estimada utilizando el método Call F es de 5,3% a 6× cobertura y de 12,5% a 2×. La razón del sesgo ascendente es que se hace más difícil llamar heterocigotos, ya que los heterocigotos verdaderos a menudo parecen errores de secuenciación. Por lo tanto, más heterocigotos que homocigotos menores tienden a tener genotipos faltantes. Sin embargo, el sesgo general en las estimaciones de MAF de los llamados genotipos no siempre está en una dirección (no se muestran los datos). Curiosamente, el sesgo parece ser peor para el método de llamada F que para el método de llamada NF. Este patrón puede parecer contrario a la intuición, ya que filtrar las llamadas del genotipo parece disminuir la probabilidad de llamar heterocigoto a un error de secuenciación. Sin embargo, el método de llamada F también resulta en una mayor cantidad de datos faltantes, ya que muchos homocigotos para el alelo mayor no se llamarán debido a errores de secuenciación. Por lo tanto, en este caso, llamar genotipos sin filtrar parece ser la mejor estrategia que filtrar genotipos cuando se trata de estimar el MAF.