- asamblarea setului de date
- validarea preciziei Hirisplexului pe populațiile Eurasiatice de Nord
- predicția culorii ochilor și părului la populațiile eurasiatice de Nord: căutarea de noi alele informative. Fluxul general de lucru
- predicția culorii ochilor
- identificarea SNP-urilor de top din setul de date eurasiatic de Nord
- îngustarea listei SNP – urilor și a Clasificatorului de clădiri pentru culoarea ochilor pe baza acesteia
- variația celor mai bune liste SNP pe regiuni geografice
- SNP-urile Eurasiatice nordice stabilesc performanța
- predicția culorii părului
- noile SNP-uri potențial informative
- limitările abordării utilizate
asamblarea setului de date
am fenotipat 300 de indivizi din 48 de populații din Rusia și țările vecine prin identificarea culorilor ochilor și părului. Fenotiparea independentă de către trei experți și disponibilitatea fotografiilor pentru revizuire au făcut fenotiparea fiabilă și reproductibilă. Populațiile au fost grupate în patru seturi de date regionale: Rusia europeană, Siberia de Vest, Caucaz și Asia de Nord; Fig. 1a prezintă locațiile de eșantionare și gruparea în seturile de date regionale. În corespondență cu suprafața mare eșantionată, metapopulațiile regionale au un fundal genetic contrastant. Am efectuat analiza PC a populațiilor incluse în acest studiu pentru a ilustra aceste constatări (Fig. 1b). Observăm că populațiile pe care a fost dezvoltat și validat HIris-plex-S (olandeză, poloneză, irlandeză și greacă) ocupă zona îngustă de pe extrema „vestică” a complotului PC, în timp ce populațiile prezente în studiul nostru, în special Asia de Nord, Caucaz și Siberia de vest sunt pronunțat diferite de vest-europeni și unul de altul. Astfel, toate analizele din aval au fost efectuate pentru fiecare set de date regional și pentru setul de date cumulat.
probele de ADN de la acești 300 de indivizi au fost secvențiate folosind captarea exomă special concepută, care a inclus, pe lângă captarea Exomă standard Roche, regiunile intronice și intergenice cunoscute ca purtând situri polimorfe legate de pigmentare (a se vedea metodele pentru detalii).
setul de date combinat a inclus apeluri fenotipice și apeluri genotipice pentru toți indivizii. Apelurile fenotipice au inclus cinci categorii de întuneric al părului, trei categorii de roșeață a părului și cinci categorii de întuneric al ochilor. Apelurile genotipice au inclus genotipuri ale tuturor siturilor polimorfe identificate în cele 53 de gene și regiuni intergenice cunoscute a fi implicate în pigmentarea ochilor/părului. Analizele din aval au fost efectuate pe subseturile acestui set de date combinat.
validarea preciziei Hirisplexului pe populațiile Eurasiatice de Nord
am început cu estimarea preciziei sistemului standard de predicție a ochilor / părului la populațiile nou fenotipate. Din setul de date combinat am extras apelurile fenotipice și genotipice pentru 24 SNP incluse în HIrisPlex-S. apoi am prezis Culoarea ochilor și părului din genotipuri folosind instrumentul online HIrisPlex-s și am comparat fenotipurile prezise cu fenotipurile reale (Tabelul 1). Tabelul 2 prezintă rezultatele pentru predicția culorii ochilor în diferite metapopulații (cu excepția Asiei de Nord, unde frecvența ochilor ușori este scăzută). Am constatat (Tabelul 1, dosarul suplimentar 1) că valoarea ASC în setul de date Eurasiatic de Nord este doar puțin mai mică decât în Europa de Vest/Centrală (în special pentru părul brun și roșu). Cu toate acestea, când am analizat rezultatele pentru fiecare regiune separat (Tabelul 2), am constatat că performanța panoului HIrisPlex-s pentru prezicerea culorii ochilor este mai mică pentru persoanele din regiunea Caucazului (valorile ASC sunt 0,83 și 0,78, pentru ochii albaștri și întunecați). În special, rechemarea pentru ochii albaștri din Caucaz este semnificativ mai mică în comparație cu celelalte regiuni Eurasiatice de Nord – doar 47% (fișier suplimentar 2). Ar putea indica faptul că genele căilor metabolice pigmentare din populațiile din Caucaz poartă spectrul alelelor oarecum diferit de cel din Europa. La partiționarea setului de date în funcție de clasa fenotipică (Tabelul 1 și Tabelul 2) am constatat că prezicerea ochilor atât albaștri, cât și căprui în populația rusă este mult mai puțin eficientă. În special, sistemele HirisPlex-s tind să clasifice greșit ochii albaștri ca maro.
predicția culorii ochilor și părului la populațiile eurasiatice de Nord: căutarea de noi alele informative. Fluxul general de lucru
datele noastre genetice privind indivizii fenotipici au inclus secvențierea completă a genelor asociate pigmentării și a regiunilor intergenice relevante, mai degrabă decât SNP-urile cunoscute anterior. Astfel, am fost capabili să dezvăluim noile alele informative în genele cunoscute. În total, am apelat la 117.012 SNP – uri în cele 53 de gene și regiuni intergenice.
pentru predicția culorii ochilor am realizat algoritmi de selecție a caracteristicilor pentru a obține noi alele informative pentru populațiile Eurasiatice de Nord pentru 4 seturi de date:
-
set de date Eurasiatice de Nord
-
Rusia Europeană
-
Caucaz
-
Siberia de Vest
pentru predicția culorii părului am folosit 5 seturi de date:
-
set de date Eurasiatice de Nord
-
Rusia europeană
-
Caucaz
-
Siberia de vest
- Asia de Nord
setul de date din Asia de nord a fost analizat doar pentru predicția culorii părului, deoarece pentru această regiune există o variație observată a culorii părului, în timp ce pentru culoarea ochilor nu există o astfel de variație.
fiecare set de date a fost împărțit în raportul 60:40 în eșantioane de formare și testare, păstrând procentul de eșantioane pentru fiecare clasă. Pentru setul de date cumulat am controlat că eșantioanele din diferite regiuni incluse în setul de date cumulat au fost împărțite în aceeași proporție (60:40) pentru a evita părtinirea legată de regiune.
procedura de selecție a caracteristicilor a fost efectuată pe setul de date de instruire (figura s2). Procedura de selecție a caracteristicilor a constat în aplicarea a trei algoritmi:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
selecție caracteristică Lasso cu diferite alfa (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
la analiza distribuției scorului F (de la f_regression) și MI (de la mutual_info_regression) pragurile pentru cele mai eficiente caracteristici cu cele mai mari scoruri au fost stabilite pentru fiecare set de date individual. La efectuarea selecției caracteristicilor Lasso am testat diferite opțiuni ale parametrului alfa. Pentru fiecare valoare a alpha am calculat scorurile r2 pe setul de date de antrenament pentru subsetul corespunzător de SNP-uri care au coeficienți diferiți de zero.
dintre aceste subseturi am selectat cele mai importante în funcție de scorurile R2 obținute pentru fiecare set de date individual.
pe baza rezultatelor a trei algoritmi de selecție a caracteristicilor, toate SNP-urile selectate au fost combinate în listele SNP de top pentru fiecare set de date.
în fiecare listă SNP de top, am selectat SNP-uri care au cea mai bună putere predictivă. Aceste SNP-uri au format cele mai bune liste SNP pe care le-am folosit pentru a construi un clasificator. Pentru a selecta cele mai bune SNP-uri, am folosit aceeași scală ca și clasificatorul HIrisPlex-S:
-
albastru, intermediar și maro pentru culoarea ochilor
-
roșu, blond, maro și închis pentru culoarea părului
am considerat aceste clase independente unele de altele și am încercat să construim clasificatorul cu cea mai bună putere și cel mai mic set SNP.
am folosit sisteme de clasificare separate pentru predicția culorii ochilor și părului pentru a estima importanța și puterea de predicție a fiecărui SNP pentru a restrânge listele SNP.
performanța celor mai bune caracteristici selectate a fost validată pe setul de date de testare. Pentru a evalua calitatea modelului am calculat scorul R2 (coeficientul de determinare funcția scor de regresie) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), scor ASC, precizie, rechemare și măsurători de precizie.
predicția culorii ochilor
identificarea SNP-urilor de top din setul de date eurasiatic de Nord
pentru a identifica SNP-urile de top asociate cu culoarea ochilor din eșantionul nostru, am aplicat trei algoritmi: f_regression (scorul F), mutual_info_regression (MI) și Lasso feature selection cu diferite alfa (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
am analizat distribuțiile scorurilor F (f_regression) și MI (mutual_info_regression) pe eșantioane și am selectat primele 30 de SNP-uri cu cele mai mari scoruri.
conform rezultatelor selecției caracteristicilor Lasso, am decis să includem în lista SNP – urilor cele mai importante-cele care au coeficienți diferiți de zero pentru alpha = 0.5 (2 SNP-uri pentru setul de date ‘Culoarea ochilor’ și 2 SNP-uri pentru setul de date ‘Culoarea părului’) și alpha = 0.2 (8 SNP – uri pentru setul de date’ Culoarea ochilor ‘și 8 SNP-uri pentru setul de date’ Culoarea părului’) – aceste SNP-uri au cea mai mare putere de predicție în funcție de distribuția valorilor scorului r2 pe diferite alfa-uri. Am inclus, de asemenea, seturi SNP pentru Alfa 0.1, 0.01 și 0.005.
lista finală SNP de top a constat din 256 SNP (fișier suplimentar 3).
îngustarea listei SNP – urilor și a Clasificatorului de clădiri pentru culoarea ochilor pe baza acesteia
am atribuit fiecărui SNP un scor de la 0 la 3. Scorul 3 este atribuit numai pentru SNP – urile din lista SNP-urilor de top din setul de date, deoarece rezultatele obținute pentru acel set de date sunt mult mai robuste decât pentru seturile de date regionale (dimensiunile eșantioanelor pentru seturile de date regionale sunt prezente în fișierul suplimentar 4). Scorul 3 este atribuit SNP – urilor care se află în top 5 cu cel mai mare scor F sau au coeficienți mai mari sau egali cu 0,1 în valoare absolută în modelele Lasso pentru alpha 0,2 sau au coeficienți diferiți de zero în modelele Lasso pentru alpha 0,5. Pentru eșantionul cumulat, scorul 2 este atribuit SNP-urilor care se află în top 10 cu cele mai mari scoruri F sau MI sau au coeficienți diferiți de zero în modelul Lasso pentru alpha 0.2. Scorul 1 este atribuit SNP-urilor care au coeficienți mai mari sau egali cu 0,1 în modelul Lasso pentru alpha 0,005. Tuturor celorlalte SNP le-am atribuit scorul 0. Toate cele 36 de SNP-uri cu scoruri diferite de zero au format cea mai bună listă SNP-uri și au fost utilizate pentru clasificator.
cele cinci SNP-uri au avut cel mai mare scor 3. Două dintre ele au fost cunoscute SNP-uri care cauzează culoarea ochilor (rs1129038 și rs12913832), în timp ce celelalte trei nu au fost raportate anterior ca alele predictive puternice ale culorii ochilor.
variația celor mai bune liste SNP pe regiuni geografice
întreaga analiză efectuată pentru setul de date Eurasiatic de Nord a fost repetată separat pentru populațiile din următoarele trei regiuni: Rusia Europeană, Caucaz și Siberia de vest. Pentru seturile de date regionale, scorul 2 a fost atribuit SNP-urilor care se aflau în top 5 cu cele mai mari scoruri F și MI sau au avut coeficienți mai mari sau egali cu 0.1 în valoare absolută în modelul Lasso pentru Alfa 0,5 sau coeficienți diferiți de zero în modelul Lasso pentru Alfa 0,7. Scorul 1 a fost atribuit SNP – urilor care se aflau în top 6 cu cele mai mari scoruri F și MI sau au coeficienți coeficienți diferiți de zero în modelele Lasso pentru Alfa 0,7 și 0,5. Fișierul suplimentar 5 prezintă cele mai bune seturi SNP rezultate pentru toate cele trei regiuni. Compararea listelor regionale și a listei pentru eșantionul cumulat este prezentă în fișierul suplimentar 6. În general, setul de cele mai bune SNP-uri este stabil în toate regiunile: SNP – urile cu cele mai mari scoruri sunt incluse în cele mai multe liste, în timp ce printre celelalte SNP-uri există ambele, identificate în fiecare regiune și regiune specifică. Este necesar un studiu suplimentar asupra probelor fenotipice suplimentare pentru a reproduce semnificația SNP-urilor specifice regiunii.
lista SNP fuzionată a fost clasificată în funcție de Scorul total (ca sumă a tuturor scorurilor pentru 4 eșantioane: Caucaz, Siberia de Vest, Rusia Europeană și cumulat) (fișierul suplimentar 6). Top 7 SNP-uri au cel mai mare scor total și au apărut în mai multe seturi de date, ceea ce reprezintă o confirmare suplimentară că aceste SNP-uri au o putere predictivă puternică (Tabelul 3). Două dintre aceste SNP-uri (rs1129038 și rs12913832) sunt deja incluse în Panoul HIrisPlex-s, în timp ce alte cinci SNP-uri sunt noi candidați pentru prezicerea culorii ochilor în populațiile din nordul Eurasiei. Am estimat frecvențele acestor cinci SNP în populațiile Eurasiatice de Nord (fișier suplimentar 7). Fiecare SNP a fost detectat cu frecvențe polimorfe în fiecare populație regională, astfel încât aceste SNP sunt mai degrabă comune decât rare.
SNP-urile Eurasiatice nordice stabilesc performanța
am estimat performanța SNP-urilor care au demonstrat cea mai mare putere predictivă din nordul nostru eșantion eurasiatic. Setul minim a inclus 7 SNP-uri, dintre care două au fost incluse anterior în panoul HIrisPlex-S. Setul optim a inclus 36 de SNP-uri care au primit cele mai mari scoruri pe setul de date Eurasiatic de Nord. Am testat performanța de clasificare a ambelor seturi de SNP-uri din Eurasia de Nord. Figura 2 prezintă curbele ROC și scorurile ASC pentru predicția a trei culori ale ochilor. Precizia setului de 7 SNP-uri este aproape la fel de eficientă ca predicția bazată pe SNP-urile 41 HIrisPlex-s, în timp ce setul de 36 SNP-uri Eurasiatice nordice depășește ușor 41 SNP-uri HIrisPlex-s pe eșantionul nostru (Fig. 2, Tabelul 1).
predicția culorii părului
am efectuat aceeași analiză de selecție a caracteristicilor pentru a găsi și evalua lista SNP de top pentru predicția culorii părului pentru eșantionul eurasiatic de Nord, care include populații din următoarele regiuni: Caucaz, Rusia europeană, Siberia de vest și Asia de Nord.
am selectat Top 322 SNP-uri și am restrâns lista la 33 de cele mai bune SNP-uri care au cea mai puternică performanță pentru clasificarea în 4 grade: Culoarea părului roșu, blond, maro și întunecat, la aceeași scară ca HIrisPlex-S (fișier suplimentar 8).
am atribuit scoruri de semnificație pentru a selecta setul minim de SNP-uri în felul următor:
- 1)
scorul 3 a fost atribuit SNP-urilor care se află în top 5 cu cele mai mari scoruri F sau MI sau au coeficienți mai mari de 0,05 în valoare absolută în modelele Lasso pentru Alfa 0,2 sau au coeficienți diferiți de zero în modelele Lasso pentru Alfa 0.5
- 2)
scorul 2 a fost atribuit SNP-urilor din top 10 cu cele mai mari scoruri F sau MI
- 3)
restul SNP-urilor din 33 cele mai bune liste SNP au scorul 1
am reușit să detectăm cele mai puternice 11 SNP-uri care au cel mai mare scor (3), trei dintre ele sunt incluse în Panoul HIrisPlex-S (rs16891982, rs12913832 și rs1129038).
am verificat performanța Clasificatorului pe baza a 11 seturi SNP și am încercat să estimăm capacitatea acestuia de a distinge între 4 clase independente (la fel ca pentru HIrisPlex-S): păr roșu, blond, maro și întunecat (fișier suplimentar 9).
În plus, am încercat să fuzioneze 2 clase de culoarea parului – blond și maro – pentru că algoritmul nu are suficientă putere pentru a le distinge, și a verificat performanța SNP selectate pentru scara de 3 grade. După cum putem vedea din rezultate (Fig. 3) performanța Clasificatorului s-a îmbunătățit semnificativ pentru ambele seturi de SNP-uri: cele mai puternice 11 SNP-uri și 33 de cele mai bune SNP-uri.
noile SNP-uri potențial informative
analiza noastră a identificat cinci SNP-uri noi care au demonstrat puterea mare de predicție pentru culoarea ochilor. Aceste SNP-uri au fost dezvăluite pe eșantionul Eurasiatic de Nord și au fost reproduse pe cele mai Regionale subeșantioane. Patru dintre aceste SNP-uri sunt localizate în gena HERC2, iar una (rs4812447) se află în regiunea intergenică. HERC2 (domeniul HECT și RLD care conține E3 Ubiquitin Protein Ligase 2) genă aparține familiei de gene HERC care codifică un grup de proteine neobișnuit de mari, care conțin mai multe domenii structurale. Variațiile genetice ale acestei gene sunt asociate cu variabilitatea pigmentării pielii/părului / ochilor .
limitările abordării utilizate
am analizat performanța SNP-urilor predictive de pigmentare cunoscute și am căutat noile SNP-uri la populații nestudiate anterior din diferite zone geografice. Această abordare regională a permis identificarea SNP-urilor care sunt informative pentru populațiile particulare, dar au făcut ca dimensiunile eșantionului din fiecare regiune să fie destul de limitate. Prin urmare, nu am putut subdiviza eșantionul nostru în setul de date de instruire și setul de date de validare – acest lucru ar duce la reducerea dimensiunilor eșantionului la numere care nu permit analiza semnificativă statistic. Prin urmare, abordarea noastră ne-a obligat să folosim același set de date pentru descoperirea SNPs, construirea modelului de clasificare și, de asemenea, pentru validare, ceea ce ar putea duce la supraestimarea predicției. Prin urmare, performanța SNP-urilor noastre ar trebui considerată o estimare superioară, iar SNP-urile identificate ca fiind candidate până la verificarea eșantionului independent în studiile viitoare. Deși stabilitatea SNP-urilor predictive pentru culoarea ochilor de top în regiunile geografice verifică parțial eficacitatea SNP-urilor predictive nou identificate.