Fig. 1
Le popolazioni studiate. Pannello a: La mappa delle popolazioni studiate. I numeri sulla mappa si riferiscono alle seguenti popolazioni studiate: 1 – Chuvashes, 2 – Komi Permyaks, 3 – Komi Zyrians, 4 – Mari del Prato, 5 – Mari Montagna, 6 – Mordvins Erzya, 7 – Mordvins Moksha, 8 – Russi, 9 – Russi Nekrasov del Cossacs, 10 – Russi del Nizhny Novgorod regione, 11 – Russi della regione di Tver, 12 – Russi di Yaroslavlsky regione, 13 – Udmurts, 14 – Volga Tartari, 15 – Adygeya, 16 – Avari, 17 – Azero, 18 – Dargins, 19 – Kabardinians, 20 – Karachays, 21 – Kumyks, 22 – Lezgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, 27 – Turchi Meskhetian, 28 – Bashkirs, 29 – Foresta Nenets, 30 – Khanty, 31 – Mansi, 32 – Shors, 33 – Siberiano Tatari, 34-Buriati, 35-Chukchis, 36 – Dungans, 37 – Evenks dell’Estremo Oriente, 38 – Evens della Kamchatka, 39 – Evens della costa di Okhotsk, 40 – kazaki, 41 – Kirghiz, 42 – Koryaks, 43 – Nanais, 44 – Tagiki, 45 – turkmeni, 46 – uiguri, 47 – Uzbeki, 48-Yakuts dell’Estremo Oriente. Pannello b: La trama dei componenti principali per le popolazioni di questo studio e per le popolazioni utilizzate per lo sviluppo/validazione di HIris-plex-S. Le popolazioni di HIris-plex sono in nero. I colori si riferisce al regionale di set di dati presenti sul Pannello
i campioni di DNA da questi 300 individui sono stati sequenziati utilizzando appositamente progettato exome cattura, che comprendeva, oltre allo standard Roche exome cattura, il intronic e regioni intergenic conosciuto per portare la pigmentazione relativi siti polimorfici (vedere Metodi per i dettagli).
Il set di dati combinato includeva chiamate fenotipiche e chiamate genotipiche per tutti gli individui. Le chiamate fenotipiche includevano cinque categorie di oscurità dei capelli, tre categorie di arrossamento dei capelli e cinque categorie di oscurità degli occhi. Le chiamate genotipiche includevano genotipi di tutti i siti polimorfici identificati all’interno dei 53 geni e delle regioni intergeniche note per essere coinvolte nella pigmentazione degli occhi/capelli. Le analisi a valle sono state eseguite sui sottoinsiemi di questo insieme di dati combinato.
Convalidare la precisione di HIrisPlex sulle popolazioni eurasiatiche del nord
Abbiamo iniziato con la stima della precisione del sistema di previsione occhio / capelli standard nelle popolazioni appena fenotipizzate. Dal set di dati combinato abbiamo estratto le chiamate fenotipiche e genotipiche per 24 SNP inclusi in HIrisPlex-S. Quindi abbiamo previsto il colore degli occhi e dei capelli dai genotipi utilizzando lo strumento online HIrisPlex-S e confrontato i fenotipi previsti con i fenotipi reali (Tabella 1). La tabella 2 presenta i risultati per la previsione del colore degli occhi in diverse metapopolazioni (esclusa l’Asia settentrionale dove la frequenza degli occhi chiari è bassa). Abbiamo trovato (Tabella 1, file aggiuntivo 1) che il valore AUC nel set di dati eurasiatici del Nord è solo leggermente inferiore rispetto agli europei occidentali/centrali (in particolare per i capelli castani e rossi). Tuttavia, quando abbiamo analizzato i risultati per ogni regione separatamente (Tabella 2), abbiamo scoperto che le prestazioni del pannello HIrisPlex-S per la previsione del colore degli occhi sono inferiori per gli individui della regione del Caucaso (i valori AUC sono 0,83 e 0,78, per gli occhi blu e scuri). In particolare, il richiamo per gli occhi azzurri nel Caucaso è significativamente inferiore rispetto alle altre regioni nord eurasiatiche-solo il 47% (file aggiuntivo 2). Potrebbe indicare che i geni delle vie metaboliche della pigmentazione nelle popolazioni del Caucaso hanno uno spettro di allele leggermente diverso da quello in Europa. Nel partizionare il set di dati in base alla classe fenotipica (Tabella 1 e Tabella 2) abbiamo scoperto che prevedere gli occhi entrambi blu e marroni nella popolazione russa è molto meno efficace. In particolare, i sistemi HirisPlex-S tendono a classificare erroneamente gli occhi azzurri come marroni.
Tabella 1, l’AUC e La precisione del colore degli occhi di stima utilizzando HirisPlex-S sistema e Nord Eurasiatico set di SNPs per il pool Nord Eurasiatico dataset
Tabella 2 l’AUC e La precisione del colore degli occhi di stima utilizzando HirisPlex-S set di SNPs per la regione del Nord dell’Eurasia set di dati
degli Occhi e colore dei capelli previsione nel nord dell’Eurasia popolazioni: la ricerca di nuovi informativo alleli. Il flusso di lavoro generale
I nostri dati genetici sugli individui fenotipizzati includevano il sequenziamento completo dei geni associati alla pigmentazione e delle regioni intergeniche rilevanti piuttosto che solo SNP precedentemente noti. Quindi, siamo stati potenzialmente in grado di rivelare i nuovi alleli informativi nei geni noti. In totale, abbiamo chiamato 117.012 SNP nei 53 geni e nelle regioni intergeniche.
Per la previsione del colore degli occhi abbiamo eseguito algoritmi di selezione delle funzionalità al fine di ottenere nuovi alleli informativi per le popolazioni eurasiatiche del Nord per 4 set di dati:
Pool Nord Eurasiatico dataset
Russia Europea
Caucaso
Siberia Occidentale
Per il colore dei capelli di stima che abbiamo usato 5 set di dati:
Pool Nord Eurasiatico dataset
Russia Europea
Caucaso
Siberia Occidentale
North Asia
Nord Asiatico set di dati è stato analizzato solo per il colore dei capelli di previsione a causa del fatto per questa regione c’è una variazione osservata nel colore dei capelli, mentre per il colore degli occhi non c’è alcuna variazione.
Ogni set di dati è stato diviso in rapporto 60:40 in campioni di allenamento e di prova con la conservazione della percentuale di campioni per ogni classe. Per il set di dati in pool abbiamo controllato che i campioni provenienti da diverse regioni incluse nel set di dati in pool fossero divisi nella stessa proporzione (60:40) per evitare pregiudizi relativi alla regione.
La procedura di selezione delle funzionalità è stata eseguita sul set di dati di allenamento (figura S2). La procedura di selezione delle funzionalità consisteva nell’applicare tre algoritmi:
1)
f_regression
2)
mutual_info_regression
3)
Lazo la funzionalità di selezione, con diverse alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
Quando si analizza la distribuzione delle F punteggio (da f_regression) e MI (da mutual_info_regression) le soglie per la maggior parte delle caratteristiche di efficacia con i punteggi più alti sono stati fissati per ogni set di dati singolarmente. Quando si esegue la selezione funzione Lazo abbiamo testato diverse scelte del parametro alpha. Per ogni valore di alpha abbiamo calcolato i punteggi r2 sul set di dati di allenamento per il sottoinsieme corrispondente di SNP che hanno coefficienti diversi da zero.
Tra questi sottoinsiemi abbiamo selezionato quelli più importanti in base ai punteggi r2 ottenuti per ciascun set di dati individualmente.
In base ai risultati di tre algoritmi di selezione delle funzionalità, tutti gli SNP selezionati sono stati combinati negli elenchi SNP principali per ciascun set di dati.
In ogni top SNPs lista, abbiamo selezionato SNPS che hanno il miglior potere predittivo. Questi SNP formavano le migliori liste SNP che abbiamo usato per costruire un classificatore. Per selezionare il migliore SNPs, abbiamo usato la stessa scala HIrisPlex-S classificator:
blu, intermedio e marrone per il colore degli occhi
rosso, biondo, marrone e scuro per il colore dei capelli
Abbiamo considerato queste classi e indipendente da ogni altro ha cercato di costruire il classificatore con la migliore potenza e il più piccolo set di SNPs.
Abbiamo usato sistemi di classificazione separati per la previsione del colore degli occhi e dei capelli per stimare l’importanza e la potenza di previsione di ciascun SNP al fine di restringere le liste SNPs.
Le prestazioni delle migliori funzionalità selezionate sono state convalidate nel set di dati di test. Per valutare la qualità del modello abbiamo calcolato il punteggio R2 (coefficient of determination regression score function) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), il punteggio AUC, la precisione, il richiamo e le metriche di precisione.
Previsione del colore degli occhi
Identificazione dei migliori SNP nel set di dati eurasiatici del nord raggruppati
Per identificare i migliori SNP associati al colore degli occhi nel nostro campione abbiamo applicato tre algoritmi: f_regression (punteggio F), mutual_info_regression (MI) e selezione delle funzionalità Lazo con diversi alfa (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
Abbiamo analizzato F (f_regression) e MI (mutual_info_regression) punteggi distribuzioni attraverso i campioni e selezionato i primi 30 SNP con i punteggi più alti.
In base ai risultati della selezione delle funzionalità Lasso, abbiamo deciso di includere nella lista SNPS più importanti, quelli con coefficienti diversi da zero per alpha = 0.5 (2 SNPs per il set di dati “colore degli occhi” e 2 SNPs per il set di dati “colore dei capelli”) e alpha = 0.2 (8 SNPs per il set di dati “colore degli occhi” e 8 SNPs per il set di dati “colore dei capelli”) – questi SNP portano la massima potenza di previsione in base alla distribuzione dei valori del punteggio r2 su diversi alfa. Abbiamo anche incluso set SNP per alpha 0.1, 0.01 e 0.005.
La lista finale dei migliori SNPS consisteva di 256 SNPS (file aggiuntivo 3).
Restringendo l’elenco degli SNP e costruendo un classificatore per il colore degli occhi basato su di esso
Abbiamo assegnato a ciascun SNP un punteggio da 0 a 3. Il punteggio 3 viene assegnato solo per gli SNP dall’elenco SNP principale del set di dati in pool perché i risultati realizzati per tale set di dati sono molto più robusti rispetto ai set di dati regionali (le dimensioni del campione per i set di dati regionali sono presenti nel file aggiuntivo 4). Il punteggio 3 è assegnato agli SNP che si trovano nella top 5 con il punteggio F più alto o hanno coefficienti più o uguali a 0.1 in valore assoluto nei modelli Lazo per alpha 0.2 o hanno coefficienti diversi da zero nei modelli Lazo per alpha 0.5. Per il campione in pool il punteggio 2 è assegnato agli SNP che sono in top 10 con punteggi F o MI più alti o hanno coefficienti diversi da zero nel modello Lazo per alpha 0.2. Il punteggio 1 è assegnato agli SNP che hanno coefficienti maggiori o uguali a 0,1 nel modello Lazo per alpha 0,005. A tutti gli altri SNP abbiamo assegnato il punteggio 0. Tutti i 36 SNP con punteggi diversi da zero formavano la migliore lista SNP e venivano utilizzati per il classificatore.
I cinque SNP avevano il punteggio più alto 3. Due di loro erano ben noti SNP che causano il colore degli occhi (rs1129038 e rs12913832) mentre i restanti tre non sono stati segnalati in precedenza come potenti alleli predittivi del colore degli occhi.
Variazione della migliore lista SNPs tra regioni geografiche
L’intera analisi eseguita per il set di dati eurasiatici del Nord è stata ripetuta separatamente per le popolazioni delle tre seguenti regioni: Russia europea, Caucaso e Siberia occidentale. Per i set di dati regionali il punteggio 2 è stato assegnato a SNP che erano in top 5 con più alti punteggi F e MI o aveva coefficienti più o uguale a 0.1 in valore assoluto nel modello Lasso per alfa 0,5 o coefficienti diversi da zero nel modello Lasso per alfa 0,7. Il punteggio 1 è stato assegnato agli SNP che erano nella top 6 con i punteggi più alti di F e MI o hanno coefficienti diversi da zero coefficienti nei modelli Lazo per alpha 0.7 e 0.5. Il file aggiuntivo 5 presenta i migliori set SNP risultanti per tutte e tre le regioni. Il confronto tra gli elenchi regionali e l’elenco per l’esempio in pool è presente nel file aggiuntivo 6. In generale, l’insieme dei migliori SNP è stabile in tutte le regioni: gli SNP con i punteggi più alti sono inclusi nella maggior parte delle liste, mentre tra gli altri SNP ci sono entrambi, identificati all’interno di ogni regione e regione specifica. Ulteriori studi sui campioni fenotipizzati aggiuntivi sono necessari per replicare il significato degli SNP specifici della regione.
L’elenco SNPs unito è stato classificato per punteggio totale (come somma di tutti i punteggi per 4 campioni: Caucaso, Siberia occidentale, Russia europea e pool) (File aggiuntivo 6). I primi 7 SNP hanno il punteggio totale più alto e si sono verificati in più di un set di dati, il che è un’ulteriore conferma che questi SNP hanno un forte potere predittivo (Tabella 3). Due di questi SNP (rs1129038 e rs12913832) sono già inclusi nel pannello HIrisPlex-S, mentre altri cinque SNP sono nuovi candidati per la previsione del colore degli occhi nelle popolazioni eurasiatiche del Nord. Abbiamo stimato le frequenze di questi cinque SNP nelle popolazioni eurasiatiche del Nord (file aggiuntivo 7). Ogni SNP è stato rilevato con frequenze polimorfiche in ogni popolazione regionale, quindi questi SNP sono comuni piuttosto che rari.
Tabella 3 elenco dei 36 best Nord Eurasiatico SNPs per il colore degli occhi di previsione
nord Eurasiatico SNPs set prestazioni
Abbiamo stimato le prestazioni di SNPs che dimostrato l’alto potere predittivo nel Nord dell’Eurasia campione. Il set minimo includeva 7 SNP, due dei quali precedentemente inclusi nel pannello HIrisPlex-S. Il set ottimale includeva 36 SNP che hanno ricevuto i punteggi più alti sul set di dati eurasiatici del Nord. Abbiamo testato le prestazioni di classificazione di entrambi i gruppi di SNP nord eurasiatici. La figura 2 presenta le curve ROC e i punteggi AUC per la previsione di tre colori degli occhi. L’accuratezza del set 7 SNPs è quasi efficace quanto la previsione basata sui 41 SNPS HIrisPlex-S, mentre l’insieme dei 36 SNPS Nord eurasiatici supera leggermente i 41 SNPS HIrisPlex-S sul nostro campione (Fig. 2, Tabella 1).
Fig. 2
Curve ROC-AUC per la previsione del colore degli occhi sul dataset eurasiatico del Nord per la scala a tre gradi. Pannello a: risultati sul set 7 SNPs. Panel b: Risultati sui 36 SNPs
Previsione del colore dei capelli
Abbiamo eseguito la stessa analisi di selezione delle caratteristiche per trovare e valutare la lista SNPs superiore per la previsione del colore dei capelli per il campione eurasiatico del Nord, che include popolazioni delle seguenti regioni: Caucaso, Russia europea, Siberia occidentale e Asia settentrionale.
Abbiamo selezionato top 322 SNPS e ristretto la lista a 33 migliori SNPS che hanno le prestazioni più forti per la classificazione 4-grade: colore dei capelli rosso, biondo, marrone e scuro, la stessa scala di HIrisPlex-S (file aggiuntivo 8).
Abbiamo assegnato i punteggi di significatività per selezionare l’insieme minimo di SNP nel modo seguente:
1)
Il punteggio 3 è stato assegnato agli SNP che si trovano nella top 5 con punteggi F o MI più alti o hanno coefficienti superiori a 0,05 in valore assoluto nei modelli Lazo per alpha 0,2 o hanno coefficienti5
2)
Il punteggio di 2 è stato assegnato al SNPs in top 10 con il più alto F o MI punteggi
3)
Il resto SNPs di 33 migliori SNPs lista ha un punteggio di 1
Siamo stati in grado di individuare i più potenti 11 SNPs che hanno il punteggio più alto (3), tre di essi sono inclusi in HIrisPlex-S pannello (rs16891982, rs12913832, e rs1129038).
Abbiamo controllato le prestazioni del classificatore sulla base di 11 set SNPs e abbiamo cercato di stimare la sua capacità di distinguere tra 4 classi indipendenti (le stesse di HIrisPlex-S): capelli rossi, biondi, marroni e scuri (file aggiuntivo 9).
Inoltre, abbiamo cercato di unire 2 classi di colore dei capelli – biondo e marrone – perché algoritmo non ha abbastanza potere per distinguerli, e controllato le prestazioni di SNP selezionati per 3 scala di grado. Come possiamo vedere dai risultati (Fig. 3) le prestazioni del classificatore sono migliorate significativamente per entrambi i set di SNPS: i più potenti 11 SNPs e 33 migliori SNPs.
Fig. 3
A. Curve ROC-AUC per la previsione del colore dei capelli sul dataset eurasiatico del Nord per la scala dei tre gradi. Pannello a: risultati sul set 11 SNPs. Pannello b: risultati sul set di 33 SNPs
Il nuovo SNPs potenzialmente informativo
La nostra analisi ha identificato cinque nuovi SNPS che hanno dimostrato l’alto potere di previsione per il colore degli occhi. Questi SNP sono stati rivelati sul campione eurasiatico del Nord e sono stati replicati sui sottocampioni più regionali. Quattro di questi SNP si trovano nel gene HERC2 e uno (rs4812447) si trova nella regione intergenica. HERC2 (HECT e dominio RLD contenente E3 Ubiquitina proteina ligasi 2) gene appartiene alla famiglia di geni HERC che codifica un gruppo di insolitamente grandi proteine, che contengono più domini strutturali. Le variazioni genetiche in questo gene sono associate alla variabilità della pigmentazione della pelle/capelli/occhi .
Limitazioni dell’approccio utilizzato
Abbiamo analizzato le prestazioni degli SNP predittivi di pigmentazione noti e abbiamo cercato i nuovi SNP in popolazioni precedentemente non studiate provenienti da diverse aree geografiche. Questo approccio regionale ha permesso di identificare SNP che sono informativi per le popolazioni particolari, ma ha reso le dimensioni del campione da ogni regione piuttosto limitata. Pertanto, non siamo stati in grado di suddividere il nostro campione nel set di dati di formazione e nel set di dati di convalida: ciò avrebbe comportato una riduzione delle dimensioni del campione a numeri che non consentivano l’analisi statisticamente significativa. Pertanto, il nostro approccio ci ha costretto a utilizzare lo stesso set di dati per la scoperta SNPs, la costruzione del modello di classificazione e anche per la convalida, che potrebbe comportare una sovrastima della previsione. Pertanto, le prestazioni dei nostri SNP dovrebbero essere considerate come una stima superiore e gli SNP identificati come candidati fino alla verifica sul campione indipendente negli studi futuri. Sebbene la stabilità degli SNP predittivi del colore dell’occhio superiore in tutte le regioni geografiche verifichi in parte l’efficacia degli SNP predittivi appena identificati.