- Ensamblando el conjunto de datos
- Validando la precisión de HIrisPlex en poblaciones del norte de Eurasia
- Predicción del color de ojos y cabello en poblaciones de Eurasia septentrional: búsqueda de nuevos alelos informativos. El flujo de trabajo general
- Predicción del color de los ojos
- Identificación de los SNP superiores en el conjunto de datos agrupados de Eurasia septentrional
- Reduciendo la lista de SNPs y creando clasificadores para el color de ojos en función de él
- Variación de la lista de mejores SNPs entre regiones geográficas
- El rendimiento del conjunto de SNPs del norte de Eurasia
- Predicción del color del cabello
- Los nuevos SNPs potencialmente informativos
- Limitaciones del enfoque utilizado
Ensamblando el conjunto de datos
Fenotipamos a 300 individuos de 48 poblaciones de Rusia y países vecinos identificando sus colores de ojos y cabello. El fenotipado independiente realizado por tres expertos y la disponibilidad de fotos para volver a visitarlo hicieron que el fenotipado fuera fiable y reproducible. Las poblaciones se agruparon en cuatro conjuntos de datos regionales: Rusia europea, Siberia Occidental, Cáucaso y Asia Septentrional; Fig. 1a presenta los lugares de muestreo y la agrupación en los conjuntos de datos regionales. En correspondencia con la gran área muestreada, las metapoblaciones regionales tienen antecedentes genéticos contrastantes. Se realizó el análisis CP de las poblaciones incluidas en este estudio para ilustrar estos hallazgos (Fig. 1b). Observamos que las poblaciones en las que se ha desarrollado y validado el HIris-plex-S (holandés, polaco, irlandés y griego) ocupan la zona estrecha en el extremo «occidental» de la parcela PC, mientras que las poblaciones presentes en nuestro estudio, en particular el norte de Asia, el Cáucaso y Siberia Occidental, son claramente diferentes de los europeos occidentales y entre sí. Por lo tanto, se realizaron todos los análisis posteriores para cada conjunto de datos regionales y para el conjunto de datos agrupados.
Las muestras de ADN de estos 300 individuos se secuenciaron utilizando la captura de exomas especialmente diseñada que incluía, además de la captura de exomas estándar de Roche, las regiones intrónicas e intergénicas conocidas por transportar sitios polimórficos relacionados con la pigmentación (consulte Métodos para obtener más información).
El conjunto de datos combinado incluía llamadas fenotípicas y llamadas genotípicas para todos los individuos. Las llamadas fenotípicas incluyeron cinco categorías de oscuridad del cabello, tres categorías de enrojecimiento del cabello y cinco categorías de oscuridad de los ojos. Las llamadas genotípicas incluyeron genotipos de todos los sitios polimórficos identificados dentro de los 53 genes y regiones intergénicas que se sabe que están involucradas en la pigmentación de los ojos y el cabello. Los análisis posteriores se realizaron en los subconjuntos de este conjunto de datos combinado.
Validando la precisión de HIrisPlex en poblaciones del norte de Eurasia
Comenzamos con la estimación de la precisión del sistema estándar de predicción de ojos/cabello en las poblaciones recién fenotipadas. A partir del conjunto de datos combinados, extrajimos las llamadas fenotípicas y genotípicas de 24 SNP incluidos en el HIrisPlex-S. Luego predijimos el color de ojos y cabello de los genotipos utilizando la herramienta HIrisPlex-S en línea y comparamos los fenotipos predichos con los fenotipos reales (Tabla 1). La Tabla 2 presenta los resultados de la predicción del color de ojos en diferentes metapoblaciones (excluyendo el norte de Asia, donde la frecuencia de ojos claros es baja). Se encontró (Tabla 1, archivo adicional 1) que el valor de AUC en el conjunto de datos agrupados de Eurasia Septentrional es solo ligeramente inferior al de Europa Occidental y Central (particularmente para el cabello castaño y rojo). Sin embargo, cuando analizamos los resultados para cada región por separado (Tabla 2), encontramos que el rendimiento del panel HIrisPlex-S para predecir el color de los ojos es menor para individuos de la región del Cáucaso (los valores de AUC son 0,83 y 0,78, para ojos azules y oscuros). Especialmente, la retirada de los ojos azules en el Cáucaso es significativamente menor en comparación con las otras regiones del norte de Eurasia, solo el 47% (archivo adicional 2). Podría indicar que los genes de las vías metabólicas de pigmentación en las poblaciones del Cáucaso llevan un espectro alélico algo diferente del de Europa. Al dividir el conjunto de datos de acuerdo con la clase fenotípica (Tabla 1 y Tabla 2), encontramos que predecir los ojos azules y marrones en la población rusa es mucho menos efectivo. En particular, los sistemas HirisPlex-S tienden a clasificar erróneamente los ojos azules como marrones.
Predicción del color de ojos y cabello en poblaciones de Eurasia septentrional: búsqueda de nuevos alelos informativos. El flujo de trabajo general
Nuestros datos genéticos de los individuos fenotipados incluyeron la secuenciación completa de los genes asociados a la pigmentación y las regiones intergénicas relevantes en lugar de solo SNP conocidos previamente. Por lo tanto, pudimos revelar los nuevos alelos informativos en los genes conocidos. En total, llamamos a 117.012 SNPs en los 53 genes y regiones intergénicas.
Para la predicción del color de los ojos, realizamos algoritmos de selección de características para obtener nuevos alelos informativos para poblaciones del norte de Eurasia para 4 conjuntos de datos:
-
Conjunto de datos agrupados del Norte de Eurasia
-
Rusia europea
-
Cáucaso
-
Siberia Occidental
Para la predicción del color del cabello se utilizaron 5 conjuntos de datos:
-
Conjunto de datos agrupados del norte de Eurasia
-
Rusia europea
-
Cáucaso
-
Siberia occidental
-
Asia del Norte
El conjunto de datos de Asia del Norte se analizó solo para la predicción del color del cabello debido al hecho de que para esta región se observa una variación en el color del cabello, mientras que para el color de los ojos no existe tal variación.
Cada conjunto de datos se ha dividido en una proporción de 60:40 en muestras de entrenamiento y de prueba, preservando el porcentaje de muestras para cada clase. Para el conjunto de datos agrupados, controlamos que las muestras de diferentes regiones incluidas en el conjunto de datos agrupados se dividieran en la misma proporción (60:40) para evitar sesgos relacionados con la región.
El procedimiento de selección de características se ha realizado en el conjunto de datos de entrenamiento (Figura S2). El procedimiento de selección de características consistió en la aplicación de tres algoritmos:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
Selección de funciones Lazo con diferentes alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
Al analizar la distribución de la puntuación F (de f_regression) y MI (de mutual_info_regression), se establecieron los umbrales para las entidades más eficaces con puntuaciones más altas para cada conjunto de datos individualmente. Al realizar la selección de características de lazo, probamos diferentes opciones del parámetro alfa. Para cada valor de alfa, calculamos las puntuaciones r2 en el conjunto de datos de entrenamiento para el subconjunto correspondiente de SNP que tienen coeficientes distintos de cero.
Entre estos subconjuntos seleccionamos los más importantes de acuerdo con las puntuaciones r2 obtenidas para cada conjunto de datos individualmente.
En función de los resultados de tres algoritmos de selección de entidades, todos los SNPS seleccionados se combinaron en las listas de SNPs principales para cada conjunto de datos.
En cada lista de SNPs principales, seleccionamos SNPs que tienen el mejor poder predictivo. Estos SNPs formaron las mejores listas de SNPs que usamos para construir un clasificador. Para seleccionar los mejores SNPs, utilizamos la misma escala que el clasificador HIrisPlex-S:
-
azul, intermedio y marrón para el color de los ojos
-
rojo, rubio, marrón y oscuro para el color del cabello
Consideramos que estas clases son independientes entre sí y tratamos de construir el clasificador con la mejor potencia y el conjunto de SNPs más pequeño.
Utilizamos sistemas de clasificación separados para la predicción del color de ojos y cabello para estimar la importancia y el poder de predicción de cada SNP con el fin de reducir las listas de SNPs.
El rendimiento de las mejores características seleccionadas se validó en el conjunto de datos de prueba. Para evaluar la calidad del modelo, calculamos la puntuación R2 (función de puntuación de regresión de coeficiente de determinación) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), la puntuación AUC, las métricas de precisión, recuperación y precisión.
Predicción del color de los ojos
Identificación de los SNP superiores en el conjunto de datos agrupados de Eurasia septentrional
Para identificar los SNP superiores asociados al color de los ojos en nuestra muestra, aplicamos tres algoritmos: f_regression (puntuación F), mutual_info_regression (MI) y selección de características de Lazo con diferentes alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
Analizamos las distribuciones de puntuaciones F (f_regression) y MI (mutual_info_regression) en las muestras y seleccionamos los 30 SNP con las puntuaciones más altas.
De acuerdo con los resultados de la selección de características de Lazo, decidimos incluir en la lista de SNPs principales los más cruciales, los que tienen coeficientes distintos de cero para alpha = 0.5 (2 SNPs para el conjunto de datos de ‘color de ojos’ y 2 SNPs para el conjunto de datos de ‘color de cabello’) y alpha = 0.2 (8 SNPs para el conjunto de datos de «color de ojos» y 8 SNPs para el conjunto de datos de «color de cabello»): estos SNPs tienen la mayor potencia de predicción de acuerdo con la distribución de los valores de puntuación r2 en diferentes alfas. También incluimos conjuntos SNP para alfas 0.1, 0.01 y 0.005.
La lista final de SNPs principales constaba de 256 SNPs (Archivo adicional 3).
Reduciendo la lista de SNPs y creando clasificadores para el color de ojos en función de él
Asignamos a cada SNP una puntuación de 0 a 3. La puntuación 3 solo se asigna a los SNPs de la lista de los principales SNPs del conjunto de datos agrupados, ya que los resultados obtenidos para ese conjunto de datos son mucho más sólidos que para los conjuntos de datos regionales (los tamaños de muestra de los conjuntos de datos regionales están presentes en el archivo adicional 4). La puntuación 3 se asigna a los SNP que se encuentran en el top 5 con la puntuación F más alta o tienen coeficientes mayores o iguales a 0,1 en valor absoluto en los modelos Lazo para alfa 0,2 o tienen coeficientes distintos de cero en los modelos Lazo para alfa 0,5. Para la muestra agrupada, el puntaje 2 se asigna a los SNP que se encuentran en el top 10 con puntajes más altos de F o MI o que tienen coeficientes distintos de cero en el modelo Lazo para alfa 0.2. La puntuación 1 se asigna a los SNP que tienen coeficientes mayores o iguales a 0,1 en el modelo Lazo para alfa 0,005. A todos los demás SNPs les asignamos la puntuación 0. Los 36 SNPs con puntuaciones distintas de cero formaron la lista de los mejores SNPs y se utilizaron para el clasificador.
Los cinco SNP tuvieron la puntuación más alta 3. Dos de ellos eran conocidos SNP causantes de color de ojos (rs1129038 y rs12913832), mientras que los tres restantes no se han reportado previamente como alelos predictivos de color de ojos potentes.
Variación de la lista de mejores SNPs entre regiones geográficas
El análisis completo realizado para el conjunto de datos agrupados de Eurasia Septentrional se ha repetido para las poblaciones de las tres regiones siguientes por separado: Rusia Europea, Cáucaso y Siberia Occidental. Para los conjuntos de datos regionales, el puntaje 2 se asignó a los SNP que se encontraban en el top 5 con los puntajes más altos de F e MI o tenían coeficientes mayores o iguales a 0.1 en valor absoluto en el modelo Lazo para alfa 0,5 o coeficientes distintos de cero en el modelo Lazo para alfa 0,7. El puntaje 1 se asignó a los SNP que se encontraban en el top 6 con puntajes más altos de F e MI o que tienen coeficientes distintos de cero en los modelos Lazo para alfa 0,7 y 0,5. El archivo adicional 5 presenta los mejores conjuntos de SNPs resultantes para las tres regiones. La comparación de las listas regionales y la lista de la muestra agrupada figura en el archivo adicional 6. En general, el conjunto de mejores SNPs es estable en todas las regiones: los SNPS con las puntuaciones más altas se incluyen en la mayoría de las listas, mientras que entre los otros SNPs hay ambos, identificados dentro de cada región y región específica. Es necesario seguir estudiando las muestras fenotipadas adicionales para replicar la importancia de los SNP específicos de la región.
La lista de SNPs fusionados se clasificó por puntuación total (como la suma de todas las puntuaciones para 4 muestras: Cáucaso, Siberia Occidental, Rusia Europea y agrupadas) (archivo adicional 6). Los 7 SNP principales tienen la puntuación total más alta y se produjeron en más de un conjunto de datos, lo que es una confirmación adicional de que estos SNP tienen un fuerte poder predictivo (Tabla 3). Dos de esos SNP (rs1129038 y rs12913832) ya están incluidos en el panel HIrisPlex-S, mientras que otros cinco SNP son nuevos candidatos para predecir el color de los ojos en las poblaciones del norte de Eurasia. Se estimaron las frecuencias de estos cinco SNP en poblaciones del norte de Eurasia (archivo adicional 7). Cada SNP se detectó con frecuencias polimórficas en cada población regional, por lo que estos SNP son comunes en lugar de raros.
El rendimiento del conjunto de SNPs del norte de Eurasia
Estimamos el rendimiento de los SNPs que demostraron el mayor poder predictivo en nuestro Norte Muestra euroasiática. El conjunto mínimo incluía 7 SNPs, dos de los cuales se incluyeron previamente en el panel Hirispplex-S. El conjunto óptimo incluyó 36 SNP que recibieron las puntuaciones más altas en el conjunto de datos agrupados de Eurasia Septentrional. Probamos el rendimiento de clasificación de ambos conjuntos de SNP del Norte de Eurasia. La Figura 2 presenta las curvas ROC y las puntuaciones AUC para la predicción de tres colores de ojos. La precisión del conjunto de 7 SNPs es casi tan efectiva como la predicción basada en los 41 SNPs HIrisPlex-S, mientras que el conjunto de 36 SNPs del Norte de Eurasia supera ligeramente a los 41 SNPs HIrisPlex-S de nuestra muestra (Fig. 2, cuadro 1).
Predicción del color del cabello
Realizamos el mismo análisis de selección de características para encontrar y evaluar la lista de SNPs principales para la predicción del color del cabello para la muestra agrupada del Norte de Eurasia, que incluye poblaciones de las siguientes regiones: Cáucaso, Rusia Europea, Siberia Occidental y Asia del Norte.
Seleccionamos los 322 mejores SNPs y redujimos la lista a los 33 mejores SNPs que tienen el mejor rendimiento para la clasificación de 4 grados: color de cabello rojo, rubio, marrón y oscuro, la misma escala que HIrisPlex-S (Lima adicional 8).
Asignamos puntuaciones de significación para seleccionar el conjunto mínimo de SNPs de la siguiente manera:
- 1)
La puntuación 3 se ha asignado a SNPs que se encuentran en el top 5 con puntuaciones más altas de F o MI o que tienen coeficientes superiores a 0,05 en valor absoluto en los modelos Lazo para alfa 0,2 o que tienen coeficientes distintos de cero en los modelos Lazo para alfa 0.5
- 2)
La puntuación 2 se ha asignado a SNPs en el top 10 con puntuaciones más altas de F o MI
- 3)
El resto de SNPs de la lista de 33 mejores SNPs tienen la puntuación 1
Pudimos detectar los 11 SNPs más potentes que tienen la puntuación más alta (3), tres de ellos están incluidos en el panel HIrisPlex-S (rs16891982, rs12913832 y rs1129038).
Comprobamos el rendimiento del clasificador basado en un conjunto de 11 SNPs e intentamos estimar su capacidad para distinguir entre 4 clases independientes (lo mismo que para HIrisPlex-S): cabello rojo, rubio, marrón y oscuro (archivo adicional 9).
Además, intentamos combinar 2 clases de color de cabello, rubio y marrón, porque el algoritmo no tiene suficiente poder para distinguirlos, y verificamos el rendimiento de los SNP seleccionados para una escala de 3 grados. Como podemos ver en los resultados (Fig. 3) el rendimiento del clasificador mejoró significativamente para ambos conjuntos de SNPs: los 11 SNPs más potentes y los 33 mejores SNPs.
Los nuevos SNPs potencialmente informativos
Nuestro análisis identificó cinco nuevos SNPs que demostraron el alto poder de predicción para el color de los ojos. Estos SNP se revelaron en la muestra agrupada del norte de Eurasia y se replicaron en las submuestras más regionales. Cuatro de estos SNP se encuentran en el gen HERC2, y uno (rs4812447) está en la región intergénica. El gen HERC2 (Dominio HECT y RLD Que contiene E3 Ubiquitina, Proteína Ligasa 2) pertenece a la familia de genes HERC que codifica un grupo de proteínas inusualmente grandes, que contienen múltiples dominios estructurales. Las variaciones genéticas en este gen están asociadas con la variabilidad de la pigmentación de la piel, el cabello y los ojos .
Limitaciones del enfoque utilizado
Analizamos el rendimiento de los SNP predictivos de pigmentación conocidos y buscamos los nuevos SNP en poblaciones previamente no estudiadas de diferentes áreas geográficas. Este enfoque basado en la región permitió identificar los SNP que son informativos para las poblaciones particulares, pero hizo que los tamaños de muestra de cada región fueran bastante limitados. Por lo tanto, no pudimos subdividir nuestra muestra en el conjunto de datos de entrenamiento y el conjunto de datos de validación, lo que resultaría en reducir el tamaño de la muestra a números que no permitían el análisis estadísticamente significativo. Por lo tanto, nuestro enfoque nos obligó a usar el mismo conjunto de datos para el descubrimiento de SNPs, la construcción del modelo de clasificación y también para la validación, lo que podría resultar en una sobreestimación de la predicción. Por lo tanto, el desempeño de nuestros SNPS debe considerarse como una estimación superior, y los SNPs identificados como candidatos hasta la verificación en la muestra independiente en los estudios futuros. Aunque la estabilidad de los SNP predictivos de color de ojos superiores en todas las regiones geográficas verifica en parte la efectividad de los SNP predictivos recientemente identificados.