Optimización de la predicción genética del color de ojos y cabello para poblaciones del Norte de Eurasia

Ensamblando el conjunto de datos

Fenotipamos a 300 individuos de 48 poblaciones de Rusia y países vecinos identificando sus colores de ojos y cabello. El fenotipado independiente realizado por tres expertos y la disponibilidad de fotos para volver a visitarlo hicieron que el fenotipado fuera fiable y reproducible. Las poblaciones se agruparon en cuatro conjuntos de datos regionales: Rusia europea, Siberia Occidental, Cáucaso y Asia Septentrional; Fig. 1a presenta los lugares de muestreo y la agrupación en los conjuntos de datos regionales. En correspondencia con la gran área muestreada, las metapoblaciones regionales tienen antecedentes genéticos contrastantes. Se realizó el análisis CP de las poblaciones incluidas en este estudio para ilustrar estos hallazgos (Fig. 1b). Observamos que las poblaciones en las que se ha desarrollado y validado el HIris-plex-S (holandés, polaco, irlandés y griego) ocupan la zona estrecha en el extremo «occidental» de la parcela PC, mientras que las poblaciones presentes en nuestro estudio, en particular el norte de Asia, el Cáucaso y Siberia Occidental, son claramente diferentes de los europeos occidentales y entre sí. Por lo tanto, se realizaron todos los análisis posteriores para cada conjunto de datos regionales y para el conjunto de datos agrupados.

Fig. 1
figura 1.

La población objeto de estudio. Panel a: Mapa de las poblaciones estudiadas. Los números en el mapa se refieren a las siguientes poblaciones estudiadas: 1 – Chuvashes, 2 – Komi Permiaks, 3 – Komi Zyrianos, 4 – Prado de Mari, 5 – Montaña de Mari, 6 – Mordvins Erzya, 7 – Mordvins Moksha, 8 – Rusos, 9 – Cosacos de Nekrasov Rusos, 10 – Rusos de la región de Nizhny Novgorod, 11 – Rusos de la región de Tver, 12 – Rusos de la región de Yaroslavlsky, 13 – Udmurts, 14 – Tártaros del Volga, 15 – Adyghe, 16 – Ávaros, 17 – Azeríes, 18 – Dargins, 19 – Kabardinianos, 20 – Karachays, 21 – Kumyks, 22 – Lezgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsajur, 27 – Turcos Mesjetianos, 28 – Bashkires, 29 – Nenets Forestales, 30 – Janty, 31 – Mansi, 32 – Shors, 33 – Siberianos Tártaros, 34 Buriatos, 35 Chukchis, 36 Dunganes, 37 Noches de Extremo Oriente, 38 Noches de Kamchatka, 39 Noches de la costa de Ojotsk, 40 kazajos, 41 Kirguises, 42 Koryaks, 43 Nanais, 44 Tayikos, 45 turcomanos, 46 Uigures, 47 Uzbekos, 48 Yakuts de Extremo Oriente. Panel b: Gráfico de los componentes principales para las poblaciones de este estudio y para las poblaciones utilizadas para el desarrollo/validación de HIris-plex-S. Las poblaciones de HIris-plex son de color negro. Los colores se refieren a los conjuntos de datos regionales presentes en el Panel A

Las muestras de ADN de estos 300 individuos se secuenciaron utilizando la captura de exomas especialmente diseñada que incluía, además de la captura de exomas estándar de Roche, las regiones intrónicas e intergénicas conocidas por transportar sitios polimórficos relacionados con la pigmentación (consulte Métodos para obtener más información).

El conjunto de datos combinado incluía llamadas fenotípicas y llamadas genotípicas para todos los individuos. Las llamadas fenotípicas incluyeron cinco categorías de oscuridad del cabello, tres categorías de enrojecimiento del cabello y cinco categorías de oscuridad de los ojos. Las llamadas genotípicas incluyeron genotipos de todos los sitios polimórficos identificados dentro de los 53 genes y regiones intergénicas que se sabe que están involucradas en la pigmentación de los ojos y el cabello. Los análisis posteriores se realizaron en los subconjuntos de este conjunto de datos combinado.

Validando la precisión de HIrisPlex en poblaciones del norte de Eurasia

Comenzamos con la estimación de la precisión del sistema estándar de predicción de ojos/cabello en las poblaciones recién fenotipadas. A partir del conjunto de datos combinados, extrajimos las llamadas fenotípicas y genotípicas de 24 SNP incluidos en el HIrisPlex-S. Luego predijimos el color de ojos y cabello de los genotipos utilizando la herramienta HIrisPlex-S en línea y comparamos los fenotipos predichos con los fenotipos reales (Tabla 1). La Tabla 2 presenta los resultados de la predicción del color de ojos en diferentes metapoblaciones (excluyendo el norte de Asia, donde la frecuencia de ojos claros es baja). Se encontró (Tabla 1, archivo adicional 1) que el valor de AUC en el conjunto de datos agrupados de Eurasia Septentrional es solo ligeramente inferior al de Europa Occidental y Central (particularmente para el cabello castaño y rojo). Sin embargo, cuando analizamos los resultados para cada región por separado (Tabla 2), encontramos que el rendimiento del panel HIrisPlex-S para predecir el color de los ojos es menor para individuos de la región del Cáucaso (los valores de AUC son 0,83 y 0,78, para ojos azules y oscuros). Especialmente, la retirada de los ojos azules en el Cáucaso es significativamente menor en comparación con las otras regiones del norte de Eurasia, solo el 47% (archivo adicional 2). Podría indicar que los genes de las vías metabólicas de pigmentación en las poblaciones del Cáucaso llevan un espectro alélico algo diferente del de Europa. Al dividir el conjunto de datos de acuerdo con la clase fenotípica (Tabla 1 y Tabla 2), encontramos que predecir los ojos azules y marrones en la población rusa es mucho menos efectivo. En particular, los sistemas HirisPlex-S tienden a clasificar erróneamente los ojos azules como marrones.

Tabla 1 El AUC y la precisión de la predicción del color de ojos utilizando el sistema HirisPlex-S y el conjunto de SNP de Eurasia Septentrional para el conjunto de datos agrupados de Eurasia Septentrional
Tabla 2 El AUC y la precisión de la predicción del color de ojos utilizando el conjunto de SNP HirisPlex-S para los conjuntos de datos regionales de Eurasia septentrional

Predicción del color de ojos y cabello en poblaciones de Eurasia septentrional: búsqueda de nuevos alelos informativos. El flujo de trabajo general

Nuestros datos genéticos de los individuos fenotipados incluyeron la secuenciación completa de los genes asociados a la pigmentación y las regiones intergénicas relevantes en lugar de solo SNP conocidos previamente. Por lo tanto, pudimos revelar los nuevos alelos informativos en los genes conocidos. En total, llamamos a 117.012 SNPs en los 53 genes y regiones intergénicas.

Para la predicción del color de los ojos, realizamos algoritmos de selección de características para obtener nuevos alelos informativos para poblaciones del norte de Eurasia para 4 conjuntos de datos:

  1. Conjunto de datos agrupados del Norte de Eurasia

  2. Rusia europea

  3. Cáucaso

  4. Siberia Occidental

Para la predicción del color del cabello se utilizaron 5 conjuntos de datos:

  1. Conjunto de datos agrupados del norte de Eurasia

  2. Rusia europea

  3. Cáucaso

  4. Siberia occidental

  5. Asia del Norte

El conjunto de datos de Asia del Norte se analizó solo para la predicción del color del cabello debido al hecho de que para esta región se observa una variación en el color del cabello, mientras que para el color de los ojos no existe tal variación.

Cada conjunto de datos se ha dividido en una proporción de 60:40 en muestras de entrenamiento y de prueba, preservando el porcentaje de muestras para cada clase. Para el conjunto de datos agrupados, controlamos que las muestras de diferentes regiones incluidas en el conjunto de datos agrupados se dividieran en la misma proporción (60:40) para evitar sesgos relacionados con la región.

El procedimiento de selección de características se ha realizado en el conjunto de datos de entrenamiento (Figura S2). El procedimiento de selección de características consistió en la aplicación de tres algoritmos:

  1. 1)

    f_regression

  2. 2)

    mutual_info_regression

  3. 3)

    Selección de funciones Lazo con diferentes alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)

Al analizar la distribución de la puntuación F (de f_regression) y MI (de mutual_info_regression), se establecieron los umbrales para las entidades más eficaces con puntuaciones más altas para cada conjunto de datos individualmente. Al realizar la selección de características de lazo, probamos diferentes opciones del parámetro alfa. Para cada valor de alfa, calculamos las puntuaciones r2 en el conjunto de datos de entrenamiento para el subconjunto correspondiente de SNP que tienen coeficientes distintos de cero.

Entre estos subconjuntos seleccionamos los más importantes de acuerdo con las puntuaciones r2 obtenidas para cada conjunto de datos individualmente.

En función de los resultados de tres algoritmos de selección de entidades, todos los SNPS seleccionados se combinaron en las listas de SNPs principales para cada conjunto de datos.

En cada lista de SNPs principales, seleccionamos SNPs que tienen el mejor poder predictivo. Estos SNPs formaron las mejores listas de SNPs que usamos para construir un clasificador. Para seleccionar los mejores SNPs, utilizamos la misma escala que el clasificador HIrisPlex-S:

  1. azul, intermedio y marrón para el color de los ojos

  2. rojo, rubio, marrón y oscuro para el color del cabello

Consideramos que estas clases son independientes entre sí y tratamos de construir el clasificador con la mejor potencia y el conjunto de SNPs más pequeño.

Utilizamos sistemas de clasificación separados para la predicción del color de ojos y cabello para estimar la importancia y el poder de predicción de cada SNP con el fin de reducir las listas de SNPs.

El rendimiento de las mejores características seleccionadas se validó en el conjunto de datos de prueba. Para evaluar la calidad del modelo, calculamos la puntuación R2 (función de puntuación de regresión de coeficiente de determinación) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), la puntuación AUC, las métricas de precisión, recuperación y precisión.

Predicción del color de los ojos

Identificación de los SNP superiores en el conjunto de datos agrupados de Eurasia septentrional

Para identificar los SNP superiores asociados al color de los ojos en nuestra muestra, aplicamos tres algoritmos: f_regression (puntuación F), mutual_info_regression (MI) y selección de características de Lazo con diferentes alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).

Analizamos las distribuciones de puntuaciones F (f_regression) y MI (mutual_info_regression) en las muestras y seleccionamos los 30 SNP con las puntuaciones más altas.

De acuerdo con los resultados de la selección de características de Lazo, decidimos incluir en la lista de SNPs principales los más cruciales, los que tienen coeficientes distintos de cero para alpha = 0.5 (2 SNPs para el conjunto de datos de ‘color de ojos’ y 2 SNPs para el conjunto de datos de ‘color de cabello’) y alpha = 0.2 (8 SNPs para el conjunto de datos de «color de ojos» y 8 SNPs para el conjunto de datos de «color de cabello»): estos SNPs tienen la mayor potencia de predicción de acuerdo con la distribución de los valores de puntuación r2 en diferentes alfas. También incluimos conjuntos SNP para alfas 0.1, 0.01 y 0.005.

La lista final de SNPs principales constaba de 256 SNPs (Archivo adicional 3).

Reduciendo la lista de SNPs y creando clasificadores para el color de ojos en función de él

Asignamos a cada SNP una puntuación de 0 a 3. La puntuación 3 solo se asigna a los SNPs de la lista de los principales SNPs del conjunto de datos agrupados, ya que los resultados obtenidos para ese conjunto de datos son mucho más sólidos que para los conjuntos de datos regionales (los tamaños de muestra de los conjuntos de datos regionales están presentes en el archivo adicional 4). La puntuación 3 se asigna a los SNP que se encuentran en el top 5 con la puntuación F más alta o tienen coeficientes mayores o iguales a 0,1 en valor absoluto en los modelos Lazo para alfa 0,2 o tienen coeficientes distintos de cero en los modelos Lazo para alfa 0,5. Para la muestra agrupada, el puntaje 2 se asigna a los SNP que se encuentran en el top 10 con puntajes más altos de F o MI o que tienen coeficientes distintos de cero en el modelo Lazo para alfa 0.2. La puntuación 1 se asigna a los SNP que tienen coeficientes mayores o iguales a 0,1 en el modelo Lazo para alfa 0,005. A todos los demás SNPs les asignamos la puntuación 0. Los 36 SNPs con puntuaciones distintas de cero formaron la lista de los mejores SNPs y se utilizaron para el clasificador.

Los cinco SNP tuvieron la puntuación más alta 3. Dos de ellos eran conocidos SNP causantes de color de ojos (rs1129038 y rs12913832), mientras que los tres restantes no se han reportado previamente como alelos predictivos de color de ojos potentes.

Variación de la lista de mejores SNPs entre regiones geográficas

El análisis completo realizado para el conjunto de datos agrupados de Eurasia Septentrional se ha repetido para las poblaciones de las tres regiones siguientes por separado: Rusia Europea, Cáucaso y Siberia Occidental. Para los conjuntos de datos regionales, el puntaje 2 se asignó a los SNP que se encontraban en el top 5 con los puntajes más altos de F e MI o tenían coeficientes mayores o iguales a 0.1 en valor absoluto en el modelo Lazo para alfa 0,5 o coeficientes distintos de cero en el modelo Lazo para alfa 0,7. El puntaje 1 se asignó a los SNP que se encontraban en el top 6 con puntajes más altos de F e MI o que tienen coeficientes distintos de cero en los modelos Lazo para alfa 0,7 y 0,5. El archivo adicional 5 presenta los mejores conjuntos de SNPs resultantes para las tres regiones. La comparación de las listas regionales y la lista de la muestra agrupada figura en el archivo adicional 6. En general, el conjunto de mejores SNPs es estable en todas las regiones: los SNPS con las puntuaciones más altas se incluyen en la mayoría de las listas, mientras que entre los otros SNPs hay ambos, identificados dentro de cada región y región específica. Es necesario seguir estudiando las muestras fenotipadas adicionales para replicar la importancia de los SNP específicos de la región.

La lista de SNPs fusionados se clasificó por puntuación total (como la suma de todas las puntuaciones para 4 muestras: Cáucaso, Siberia Occidental, Rusia Europea y agrupadas) (archivo adicional 6). Los 7 SNP principales tienen la puntuación total más alta y se produjeron en más de un conjunto de datos, lo que es una confirmación adicional de que estos SNP tienen un fuerte poder predictivo (Tabla 3). Dos de esos SNP (rs1129038 y rs12913832) ya están incluidos en el panel HIrisPlex-S, mientras que otros cinco SNP son nuevos candidatos para predecir el color de los ojos en las poblaciones del norte de Eurasia. Se estimaron las frecuencias de estos cinco SNP en poblaciones del norte de Eurasia (archivo adicional 7). Cada SNP se detectó con frecuencias polimórficas en cada población regional, por lo que estos SNP son comunes en lugar de raros.

Tabla 3 La lista de los 36 mejores SNPs del Norte de Eurasia para la predicción del color de los ojos

El rendimiento del conjunto de SNPs del norte de Eurasia

Estimamos el rendimiento de los SNPs que demostraron el mayor poder predictivo en nuestro Norte Muestra euroasiática. El conjunto mínimo incluía 7 SNPs, dos de los cuales se incluyeron previamente en el panel Hirispplex-S. El conjunto óptimo incluyó 36 SNP que recibieron las puntuaciones más altas en el conjunto de datos agrupados de Eurasia Septentrional. Probamos el rendimiento de clasificación de ambos conjuntos de SNP del Norte de Eurasia. La Figura 2 presenta las curvas ROC y las puntuaciones AUC para la predicción de tres colores de ojos. La precisión del conjunto de 7 SNPs es casi tan efectiva como la predicción basada en los 41 SNPs HIrisPlex-S, mientras que el conjunto de 36 SNPs del Norte de Eurasia supera ligeramente a los 41 SNPs HIrisPlex-S de nuestra muestra (Fig. 2, cuadro 1).

Fig. 2
figura 2

Curvas ROC-AUC para la predicción del color de los ojos en el conjunto de datos de Eurasia Septentrional para la escala de tres grados. Panel a: resultados en el conjunto de 7 SNPs. Panel b: Resultados de los 36 SNPs

Predicción del color del cabello

Realizamos el mismo análisis de selección de características para encontrar y evaluar la lista de SNPs principales para la predicción del color del cabello para la muestra agrupada del Norte de Eurasia, que incluye poblaciones de las siguientes regiones: Cáucaso, Rusia Europea, Siberia Occidental y Asia del Norte.

Seleccionamos los 322 mejores SNPs y redujimos la lista a los 33 mejores SNPs que tienen el mejor rendimiento para la clasificación de 4 grados: color de cabello rojo, rubio, marrón y oscuro, la misma escala que HIrisPlex-S (Lima adicional 8).

Asignamos puntuaciones de significación para seleccionar el conjunto mínimo de SNPs de la siguiente manera:

  1. 1)

    La puntuación 3 se ha asignado a SNPs que se encuentran en el top 5 con puntuaciones más altas de F o MI o que tienen coeficientes superiores a 0,05 en valor absoluto en los modelos Lazo para alfa 0,2 o que tienen coeficientes distintos de cero en los modelos Lazo para alfa 0.5

  2. 2)

    La puntuación 2 se ha asignado a SNPs en el top 10 con puntuaciones más altas de F o MI

  3. 3)

    El resto de SNPs de la lista de 33 mejores SNPs tienen la puntuación 1

Pudimos detectar los 11 SNPs más potentes que tienen la puntuación más alta (3), tres de ellos están incluidos en el panel HIrisPlex-S (rs16891982, rs12913832 y rs1129038).

Comprobamos el rendimiento del clasificador basado en un conjunto de 11 SNPs e intentamos estimar su capacidad para distinguir entre 4 clases independientes (lo mismo que para HIrisPlex-S): cabello rojo, rubio, marrón y oscuro (archivo adicional 9).

Además, intentamos combinar 2 clases de color de cabello, rubio y marrón, porque el algoritmo no tiene suficiente poder para distinguirlos, y verificamos el rendimiento de los SNP seleccionados para una escala de 3 grados. Como podemos ver en los resultados (Fig. 3) el rendimiento del clasificador mejoró significativamente para ambos conjuntos de SNPs: los 11 SNPs más potentes y los 33 mejores SNPs.

Fig. 3
figura 3

A. Curvas ROC-AUC para la predicción del color del cabello en el conjunto de datos de Eurasia Septentrional para la escala de tres grados. Panel a: resultados en el set de 11 SNPs. Panel b: resultados en el conjunto de 33 SNPs

Los nuevos SNPs potencialmente informativos

Nuestro análisis identificó cinco nuevos SNPs que demostraron el alto poder de predicción para el color de los ojos. Estos SNP se revelaron en la muestra agrupada del norte de Eurasia y se replicaron en las submuestras más regionales. Cuatro de estos SNP se encuentran en el gen HERC2, y uno (rs4812447) está en la región intergénica. El gen HERC2 (Dominio HECT y RLD Que contiene E3 Ubiquitina, Proteína Ligasa 2) pertenece a la familia de genes HERC que codifica un grupo de proteínas inusualmente grandes, que contienen múltiples dominios estructurales. Las variaciones genéticas en este gen están asociadas con la variabilidad de la pigmentación de la piel, el cabello y los ojos .

Limitaciones del enfoque utilizado

Analizamos el rendimiento de los SNP predictivos de pigmentación conocidos y buscamos los nuevos SNP en poblaciones previamente no estudiadas de diferentes áreas geográficas. Este enfoque basado en la región permitió identificar los SNP que son informativos para las poblaciones particulares, pero hizo que los tamaños de muestra de cada región fueran bastante limitados. Por lo tanto, no pudimos subdividir nuestra muestra en el conjunto de datos de entrenamiento y el conjunto de datos de validación, lo que resultaría en reducir el tamaño de la muestra a números que no permitían el análisis estadísticamente significativo. Por lo tanto, nuestro enfoque nos obligó a usar el mismo conjunto de datos para el descubrimiento de SNPs, la construcción del modelo de clasificación y también para la validación, lo que podría resultar en una sobreestimación de la predicción. Por lo tanto, el desempeño de nuestros SNPS debe considerarse como una estimación superior, y los SNPs identificados como candidatos hasta la verificación en la muestra independiente en los estudios futuros. Aunque la estabilidad de los SNP predictivos de color de ojos superiores en todas las regiones geográficas verifica en parte la efectividad de los SNP predictivos recientemente identificados.

Related Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *