- Assemblage de l’ensemble de données
- Validation de la précision de HIrisPlex sur les populations d’Eurasie du Nord
- Prédiction de la couleur des yeux et des cheveux dans les populations de l’Eurasie du Nord: recherche de nouveaux allèles informatifs. Le flux de travail général
- Prédiction de la couleur des yeux
- Identification des meilleurs SNP dans l’ensemble de données regroupé en Eurasie du Nord
- Réduire la liste des SNP et le classificateur de construction pour la couleur des yeux en fonction de celle-ci
- Variation de la liste des meilleurs SNP selon les régions géographiques
- Les performances définies par les SNP Nord-eurasiens
- Prédiction de la couleur des cheveux
- Les nouveaux SNP potentiellement informatifs
- Limites de l’approche utilisée
Assemblage de l’ensemble de données
Nous avons phénotypé 300 individus de 48 populations de Russie et des pays voisins en identifiant leurs couleurs des yeux et des cheveux. Le phénotypage indépendant par trois experts et la disponibilité de photos à revisiter ont rendu le phénotypage fiable et reproductible. Les populations ont été regroupées en quatre ensembles de données régionaux: Russie européenne, Sibérie occidentale, Caucase et Asie du Nord; Fig. 1a présente les emplacements d’échantillonnage et les regroupements dans les ensembles de données régionaux. En correspondance avec la grande zone échantillonnée, les métapopulations régionales ont des antécédents génétiques contrastés. Nous avons effectué l’analyse PC des populations incluses dans cette étude pour illustrer ces résultats (Fig. 1b). Nous notons que les populations sur lesquelles le HIris-plex-S a été développé et validé (Néerlandais, Polonais, Irlandais et Grec) occupent la zone étroite à l’extrême « ouest” de la parcelle PC, tandis que les populations présentes dans notre étude, en particulier l’Asie du Nord, le Caucase et la Sibérie occidentale sont nettement différentes des Européens de l’Ouest et les unes des autres. Ainsi, toutes les analyses en aval ont été effectuées pour chaque ensemble de données régional et pour l’ensemble de données regroupé.
Des échantillons d’ADN de ces 300 individus ont été séquencés à l’aide de la capture d’exome spécialement conçue qui comprenait, en plus de la capture d’exome standard de Roche, les régions introniques et intergéniques connues pour porter des sites polymorphes liés à la pigmentation (voir Méthodes pour plus de détails).
L’ensemble de données combiné comprenait des appels phénotypiques et des appels génotypiques pour tous les individus. Les appels phénotypiques comprenaient cinq catégories d’obscurité des cheveux, trois catégories de rougeur des cheveux et cinq catégories d’obscurité des yeux. Les appels génotypiques comprenaient des génotypes de tous les sites polymorphes identifiés dans les 53 gènes et régions intergéniques connus pour être impliqués dans la pigmentation des yeux et des cheveux. Les analyses en aval ont été effectuées sur les sous-ensembles de cet ensemble de données combiné.
Validation de la précision de HIrisPlex sur les populations d’Eurasie du Nord
Nous avons commencé par estimer la précision du système de prédiction œil/cheveux standard dans les populations nouvellement phénotypées. À partir de l’ensemble de données combiné, nous avons extrait les appels phénotypiques et génotypiques pour 24 SNP inclus dans le HIrisPlex-S. Nous avons ensuite prédit la couleur des yeux et des cheveux à partir de génotypes à l’aide de l’outil en ligne HIrisPlex-S et comparé les phénotypes prédits avec les phénotypes réels (tableau 1). Le tableau 2 présente les résultats de la prédiction de la couleur des yeux dans différentes métapopulations (à l’exclusion de l’Asie du Nord où la fréquence des yeux clairs est faible). Nous avons constaté (Tableau 1, fichier supplémentaire 1) que la valeur de l’ASC dans l’ensemble de données regroupé en Eurasie du Nord n’est que légèrement inférieure à celle des Européens de l’Ouest et du Centre (en particulier pour les cheveux bruns et roux). Cependant, lorsque nous avons analysé les résultats pour chaque région séparément (tableau 2), nous avons constaté que les performances du panel HIrisPlex-S pour prédire la couleur des yeux sont plus faibles pour les individus de la région du Caucase (les valeurs de l’ASC sont de 0,83 et 0,78, pour les yeux bleus et foncés). En particulier, le rappel pour les yeux bleus dans le Caucase est nettement inférieur à celui des autres régions d’Eurasie du Nord – seulement 47% (fichier supplémentaire 2). Cela pourrait indiquer que les gènes des voies métaboliques de la pigmentation dans les populations du Caucase portent un spectre d’allèles quelque peu différent de celui de l’Europe. Lors du partitionnement de l’ensemble de données selon la classe phénotypique (Tableau 1 et tableau 2), nous avons constaté que prédire les yeux bleus et bruns dans la population russe est beaucoup moins efficace. En particulier, les systèmes HirisPlex-S ont tendance à classer à tort les yeux bleus comme bruns.
Prédiction de la couleur des yeux et des cheveux dans les populations de l’Eurasie du Nord: recherche de nouveaux allèles informatifs. Le flux de travail général
Nos données génétiques sur les individus phénotypés comprenaient le séquençage complet des gènes associés à la pigmentation et des régions intergéniques pertinentes plutôt que les SNP précédemment connus uniquement. Ainsi, nous avons pu potentiellement révéler les nouveaux allèles informatifs dans les gènes connus. Au total, nous avons appelé 117 012 SNP dans les 53 gènes et régions intergéniques.
Pour la prédiction de la couleur des yeux, nous avons effectué des algorithmes de sélection de caractéristiques afin d’obtenir de nouveaux allèles informatifs pour les populations d’Eurasie du Nord pour 4 ensembles de données:
-
Ensemble de données en Eurasie du Nord groupé
-
Russie européenne
-
Caucase
-
Sibérie occidentale
Pour la prédiction de la couleur des cheveux, nous avons utilisé 5 ensembles de données:
-
Ensemble de données en Eurasie du Nord groupé
-
Russie européenne
-
Caucase
-
Sibérie occidentale
-
Asie du Nord
L’ensemble de données sur l’Asie du Nord a été analysé uniquement pour la prédiction de la couleur des cheveux en raison du fait que pour cette région, il y a une variation observée de la couleur des cheveux alors que pour la couleur des yeux, il n’y a pas de telle variation.
Chaque ensemble de données a été divisé dans un rapport de 60:40 en échantillons d’entraînement et d’essai, en conservant le pourcentage d’échantillons pour chaque classe. Pour l’ensemble de données regroupé, nous avons contrôlé que les échantillons de différentes régions incluses dans l’ensemble de données regroupé étaient divisés dans la même proportion (60:40) pour éviter les biais liés aux régions.
La procédure de sélection des caractéristiques a été effectuée sur l’ensemble de données d’entraînement (figure S2). La procédure de sélection des entités consistait à appliquer trois algorithmes:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
Sélection de fonction Lasso avec différents alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
Lors de l’analyse de la distribution du score F (de f_regression) et MI (de mutual_info_regression), les seuils des entités les plus efficaces avec les scores les plus élevés ont été définis pour chaque ensemble de données individuellement. Lors de la sélection de la fonction Lasso, nous avons testé différents choix du paramètre alpha. Pour chaque valeur d’alpha, nous avons calculé des scores r2 sur l’ensemble de données d’entraînement pour le sous-ensemble correspondant de SNP qui ont des coefficients non nuls.
Parmi ces sous-ensembles, nous avons sélectionné les plus importants en fonction des scores r2 obtenus pour chaque ensemble de données individuellement.
Sur la base des résultats de trois algorithmes de sélection des entités, tous les SNP sélectionnés ont été combinés dans les listes de SNP les plus élevées pour chaque ensemble de données.
Dans chaque liste des meilleurs SNP, nous avons sélectionné les SNP qui ont le meilleur pouvoir prédictif. Ces SNP formaient les meilleures listes de SNP que nous utilisions pour construire un classificateur. Pour sélectionner les meilleurs SNP, nous avons utilisé la même échelle que le classificateur HIrisPlex-S:
-
bleu, intermédiaire et marron pour la couleur des yeux
-
rouge, blond, brun et foncé pour la couleur des cheveux
Nous avons considéré ces classes indépendantes les unes des autres et avons essayé de construire le classificateur avec la meilleure puissance et le plus petit ensemble de SNP.
Nous avons utilisé des systèmes de classement distincts pour la prédiction de la couleur des yeux et des cheveux afin d’estimer l’importance et le pouvoir de prédiction de chaque SNP afin de réduire les listes de SNP.
Les performances des meilleures fonctionnalités sélectionnées ont été validées sur le jeu de données de test. Pour évaluer la qualité du modèle, nous avons calculé le score R2 (fonction de score de régression du coefficient de détermination) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), le score AUC, les mesures de précision, de rappel et de précision.
Prédiction de la couleur des yeux
Identification des meilleurs SNP dans l’ensemble de données regroupé en Eurasie du Nord
Pour identifier les SNP les plus associés à la couleur des yeux dans notre échantillon, nous avons appliqué trois algorithmes: f_regression (score F), mutual_info_regression (MI) et sélection de caractéristiques au Lasso avec différents alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
Nous avons analysé les distributions de scores F(f_regression) et MI (mutual_info_regression) sur les échantillons et sélectionné les 30 meilleurs SNP avec les scores les plus élevés.
Selon les résultats de la sélection des caractéristiques du Lasso, nous avons décidé d’inclure dans la liste des SNP les plus cruciales – celles ayant des coefficients non nuls pour alpha = 0,5 (2 SNP pour l’ensemble de données « couleur des yeux » et 2 SNP pour l’ensemble de données « couleur des cheveux ») et alpha = 0.2 (8 SNP pour l’ensemble de données « couleur des yeux » et 8 SNP pour l’ensemble de données « couleur des cheveux ») – ces SNP portent le plus de puissance de prédiction selon la distribution des valeurs de score r2 sur différents alphas. Nous avons également inclus des ensembles SNP pour les alphas 0.1, 0.01 et 0.005.
La liste finale des meilleurs SNP se composait de 256 SNP (fichier supplémentaire 3).
Réduire la liste des SNP et le classificateur de construction pour la couleur des yeux en fonction de celle-ci
Nous avons attribué à chaque SNP un score de 0 à 3. Le score 3 n’est attribué que pour les SNP de la liste des SNP les plus populaires de l’ensemble de données regroupé, car les résultats obtenus pour cet ensemble de données sont beaucoup plus robustes que pour les ensembles de données régionaux (la taille des échantillons pour les ensembles de données régionaux est présente dans le fichier supplémentaire 4). Le score 3 est attribué aux SNP qui se trouvent dans le top 5 avec le score F le plus élevé ou qui ont des coefficients supérieurs ou égaux à 0,1 en valeur absolue dans les modèles Lasso pour alpha 0,2 ou qui ont des coefficients non nuls dans les modèles Lasso pour alpha 0,5. Pour l’échantillon regroupé, le score 2 est attribué aux SNP qui figurent dans le top 10 avec les scores F ou MI les plus élevés ou qui ont des coefficients non nuls dans le modèle Lasso pour alpha 0.2. Le score 1 est attribué aux SNP qui ont des coefficients supérieurs ou égaux à 0,1 dans le modèle Lasso pour alpha 0,005. À tous les autres SNP, nous avons attribué le score 0. Les 36 SNP avec des scores non nuls formaient la meilleure liste de SNP et ont été utilisés pour le classificateur.
Les cinq SNP ont obtenu le score le plus élevé 3. Deux d’entre eux étaient des SNP responsables de la couleur des yeux bien connus (rs1129038 et rs12913832) tandis que les trois autres n’ont pas été signalés auparavant comme de puissants allèles prédictifs de la couleur des yeux.
Variation de la liste des meilleurs SNP selon les régions géographiques
L’analyse complète effectuée pour l’ensemble de données regroupé en Eurasie du Nord a été répétée pour les populations des trois régions suivantes séparément : Russie européenne, Caucase et Sibérie occidentale. Pour les ensembles de données régionaux, le score 2 a été attribué aux SNP qui se trouvaient dans le top 5 avec les scores F et MI les plus élevés ou dont les coefficients étaient supérieurs ou égaux à 0.1 en valeur absolue dans le modèle Lasso pour alpha 0,5 ou coefficients non nuls dans le modèle Lasso pour alpha 0,7. Le score 1 a été attribué aux SNP qui se trouvaient dans le top 6 avec les scores F et MI les plus élevés ou qui ont des coefficients non nuls dans les modèles Lasso pour alpha 0,7 et 0,5. Le fichier supplémentaire 5 présente les meilleurs ensembles de SNPs résultants pour les trois régions. La comparaison des listes régionales et de la liste de l’échantillon regroupé est présente dans le fichier supplémentaire 6. En général, l’ensemble des meilleurs SNP est stable dans toutes les régions: les SNP avec les scores les plus élevés sont inclus dans le plus grand nombre de listes, tandis que parmi les autres SNP, il y a les deux, identifiés dans chaque région et par région. Une étude plus approfondie des échantillons phénotypés supplémentaires est nécessaire pour reproduire l’importance des SNP spécifiques à la région.
La liste SNPs fusionnée a été classée par score total (somme de tous les scores pour 4 échantillons : Caucase, Sibérie occidentale, Russie européenne et mise en commun) (fichier supplémentaire 6). Les 7 meilleurs SNP ont le score total le plus élevé et se sont produits dans plus d’un ensemble de données, ce qui est une confirmation supplémentaire que ces SNP ont un fort pouvoir prédictif (tableau 3). Deux de ces SNP (rs1129038 et rs12913832) sont déjà inclus dans le panel HIrisPlex-S, tandis que cinq autres SNP sont de nouveaux candidats pour la prédiction de la couleur des yeux dans les populations d’Eurasie du Nord. Nous avons estimé les fréquences de ces cinq SNP dans les populations d’Eurasie du Nord (fichier supplémentaire 7). Chaque SNP a été détecté avec des fréquences polymorphes dans chaque population régionale, de sorte que ces SNP sont communs plutôt que rares.
Les performances définies par les SNP Nord-eurasiens
Nous avons estimé les performances des SNP qui ont démontré la puissance prédictive la plus élevée dans notre Nord Échantillon eurasien. L’ensemble minimal comprenait 7 SNP, dont deux étaient auparavant inclus dans le panneau HIrisPlex-S. L’ensemble optimal comprenait 36 SNP qui ont reçu les scores les plus élevés sur l’ensemble de données regroupé en Eurasie du Nord. Nous avons testé les performances de classification des deux ensembles de SNP nord-eurasiens. La figure 2 présente les courbes ROC et les scores AUC pour la prédiction de trois couleurs d’yeux. La précision de l’ensemble de 7 SNP est presque aussi efficace que la prédiction basée sur les 41 SNP HIrisPlex-S, tandis que l’ensemble de 36 SNP Nord-eurasiens surpasse légèrement les 41 SNP HIrisPlex-S de notre échantillon (Fig. 2, Tableau 1).
Prédiction de la couleur des cheveux
Nous avons effectué la même analyse de sélection de caractéristiques pour trouver et évaluer la liste des SNP les plus populaires pour la prédiction de la couleur des cheveux pour l’échantillon groupé d’Eurasie du Nord, qui comprend des populations des régions suivantes: Caucase, Russie européenne, Sibérie occidentale et Asie du Nord.
Nous avons sélectionné les 322 meilleurs SNP et réduit la liste à 33 meilleurs SNP qui ont les meilleures performances pour la classification à 4 niveaux: couleur des cheveux roux, blonds, bruns et foncés, de la même échelle que HIrisPlex-S (fichier supplémentaire 8).
Nous avons attribué des scores de signification pour sélectionner l’ensemble minimum de SNP de la manière suivante:
- 1)
Le score 3 a été attribué aux SNP qui se trouvent dans le top 5 avec les scores F ou MI les plus élevés ou qui ont des coefficients supérieurs à 0,05 en valeur absolue dans les modèles Lasso pour alpha 0,2 ou qui ont des coefficients non nuls dans les modèles Lasso pour alpha 0.5
- 2)
Le score 2 a été attribué aux SNP dans le top 10 avec les scores F ou MI les plus élevés
- 3)
Les autres SNP de la liste des 33 meilleurs SNP ont le score 1
Nous avons pu détecter les 11 SNP les plus puissants qui ont le score le plus élevé (3), trois d’entre eux sont inclus dans le panneau HIrisPlex-S (rs16891982 , rs12913832 et rs1129038).
Nous avons vérifié les performances du classificateur sur la base de 11 SNPs définis et essayé d’estimer sa capacité à distinguer 4 classes indépendantes (les mêmes que pour HIrisPlex-S) : cheveux roux, blonds, bruns et foncés (fichier supplémentaire 9).
De plus, nous avons essayé de fusionner 2 classes de couleurs de cheveux – blond et brun – car l’algorithme n’a pas assez de puissance pour les distinguer, et nous avons vérifié les performances des SNP sélectionnés pour une échelle de 3 notes. Comme on peut le voir sur les résultats (Fig. 3) les performances du classificateur se sont considérablement améliorées pour les deux ensembles de SNP: les 11 SNP les plus puissants et les 33 meilleurs SNP.
Les nouveaux SNP potentiellement informatifs
Notre analyse a identifié cinq nouveaux SNP qui ont démontré le pouvoir de prédiction élevé pour la couleur des yeux. Ces SNP ont été révélés sur l’échantillon groupé de l’Eurasie du Nord et ont été reproduits sur les sous-échantillons les plus régionaux. Quatre de ces SNP sont situés dans le gène HERC2, et un (rs4812447) est dans la région intergénique. Le gène HERC2 (domaine HECT Et RLD Contenant la protéine E3 Ubiquitine Ligase 2) appartient à la famille de gènes HERC qui code pour un groupe de protéines inhabituellement grandes, qui contiennent plusieurs domaines structurels. Les variations génétiques de ce gène sont associées à la variabilité de la pigmentation de la peau, des cheveux et des yeux.
Limites de l’approche utilisée
Nous avons analysé la performance des SNP prédictifs de pigmentation connus et avons cherché les nouveaux SNP dans des populations non étudiées auparavant de différentes zones géographiques. Cette approche régionale a permis d’identifier les SNP qui sont informatifs pour les populations particulières, mais a rendu les tailles d’échantillon de chaque région assez limitées. Par conséquent, nous n’avons pas été en mesure de subdiviser notre échantillon en un ensemble de données de formation et un ensemble de données de validation, ce qui réduirait la taille des échantillons à des nombres ne permettant pas l’analyse statistiquement significative. Par conséquent, notre approche nous a obligés à utiliser le même ensemble de données pour la découverte de SNPs, la construction du modèle de classification, ainsi que pour la validation, ce qui pourrait entraîner une surestimation des prévisions. Par conséquent, la performance de nos SNP doit être considérée comme une estimation supérieure, et les SNP identifiés comme candidats jusqu’à vérification sur l’échantillon indépendant dans les futures études. Bien que la stabilité des SNP prédictifs de la couleur des yeux supérieure dans toutes les régions géographiques vérifie en partie l’efficacité des SNP prédictifs nouvellement identifiés.