optimering af den genetiske forudsigelse af øjet og hårfarve for Nord-eurasiske populationer

samling af datasættet

Vi fænotypede 300 individer fra 48 populationer i Rusland og nabolande ved at identificere deres øjen-og hårfarver. Uafhængig fænotypebestemmelse af tre eksperter og tilgængeligheden af fotos til revision gjorde fænotypebestemmelsen pålidelig og reproducerbar. Populationer blev grupperet i fire regionale datasæt: Europæisk Rusland, Vestsibirien, Kaukasus og Nordasien; Fig. 1a præsenterer prøveudtagningsstederne og grupperer sig i de regionale datasæt. I overensstemmelse med det store område, der er udtaget prøver, de regionale metapopulationer har kontrasterende genetisk baggrund. Vi udførte PC-analysen af de populationer, der var inkluderet i denne undersøgelse for at illustrere disse fund (Fig. 1b). Vi bemærker, at de befolkninger, som HIris-pleks-S er blevet udviklet og valideret (hollandsk, polsk, irsk og græsk) besætter det smalle område på den “vestlige” ekstreme af PC-plottet, mens befolkninger, der er til stede i vores undersøgelse, især nordasiatiske, Kaukasus og Vestsibirien, er udtalt forskellige fra vesteuropæere og fra hinanden. Således blev alle nedstrømsanalyser udført for hvert regionalt datasæt og for det samlede datasæt.

Fig. 1
figur1

de undersøgte populationer. Panel a: kortet over de undersøgte populationer. Tal på kortet henviser til følgende undersøgte populationer: 1 – Tjuvashes, 2 – Komi Permyaks, 3 – Komi Sirians, 4 – Mari eng, 5 – Mari bjerg, 6 – Mordvins Eriya, 7 – Mordvins Moksha, 8 – russere, 9 – russere Nekrasovs Cossacs, 10 – russere i Nisjny Novgorod – regionen, 11 – russere i Tver – regionen, 12 – russere i Yaroslavlsky – regionen, 13 – Udmurts, 14 – Volga tatarer, 15 – Adyghe, 16 – Avars, 17 – Aseriske, 18 – Dargins, 19 – Kabardinere, 20 – Karachays, 21 – Kumyks, 22 – Lessgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, 27 – tyrkere Meskhetian, 28 – Bashkirs, 29 – skov Nenets, 30 – Khanty, 31-Mansi, 32-Shors, 33-Siberian Tatarer, 34-Buryats, 35 – Chukchis, 36 – Dungans, 37 – Evenks af Fjernøsten, 38 – Evens af Kamchatka, 39 – Evens af Okhotsk kyst, 40 – Kasakhere, 41 – kirgisiske, 42 – Koryaks, 43 – Nanais, 44 – tadsjikere, 45 – turkmenere, 46 – Uigurer, 47 – usbekere, 48-Yakuts i Fjernøsten. Panel b: de vigtigste komponenter plot for denne undersøgelse populationer og for de populationer, der anvendes til hiris-pleks-s udvikling/validering. Hiris-pleks populationer er i sort. Farver henviser til de regionale datasæt, der findes på panelet a

DNA-prøver fra disse 300 individer blev sekventeret ved hjælp af den specialdesignede eksomoptagelse, som ud over standard Roche-eksomoptagelse omfattede de introniske og intergeniske regioner, der vides at bære pigmenteringsrelaterede polymorfe steder (se metoder for detaljer).

det kombinerede datasæt omfattede fænotypiske opkald og genotypiske opkald til alle individer. Fænotypiske opkald omfattede fem kategorier af hårmørket, tre kategorier af hårrødhed og fem kategorier af øjenmørket. Genotypiske opkald omfattede genotyper af alle polymorfe steder identificeret inden for de 53 gener og intergeniske regioner, der vides at være involveret i øjen – /hårpigmentering. Nedstrømsanalyserne blev udført på delmængderne i dette kombinerede datasæt.

validering af præcisionen af Hirispleks på nord-eurasiske populationer

vi startede med at estimere præcisionen af standard øje / hår forudsigelsessystem i de nyligt fænotypede populationer. Fra det kombinerede datasæt ekstraherede vi de fænotypiske og genotypiske opfordringer til 24 SNP ‘ er inkluderet i Hirispleksen-S. derefter forudsagde vi øjen-og hårfarve fra genotyper ved hjælp af online Hirispleks-s-værktøjet og sammenlignede de forudsagte fænotyper med de virkelige fænotyper (tabel 1). Tabel 2 viser resultaterne for forudsigelse af øjenfarve i forskellige metapopulationer (undtagen Nordasien, hvor hyppigheden af lyse øjne er lav). Vi fandt (tabel 1, Yderligere fil 1), at AUC-værdien i det samlede Nord-eurasiske datasæt kun er lidt lavere end i vest/Centraleuropæere (især for det brune og røde hår). Men da vi analyserede resultaterne for hver region separat (tabel 2), fandt vi, at udførelsen af Hirispleks-s panel til forudsigelse øjenfarve er lavere for personer fra Kaukasus-regionen (AUC værdier er 0,83 og 0,78, for blå og mørke øjne). Især er tilbagekaldelsen for blå øjne i Kaukasus betydeligt lavere sammenlignet med de andre Nord – eurasiske regioner-kun 47% (yderligere fil 2). Det kan tyde på, at gener af pigmenteringsmetabolske veje i Kaukasus-populationerne bærer allelspektrum noget anderledes end i Europa. Ved opdeling af datasættet i henhold til fænotypisk klasse (tabel 1 og tabel 2) fandt vi, at forudsigelse af både, blå og brune øjne i russisk befolkning er meget mindre effektiv. Især har Hirispleks-s-systemerne en tendens til at klassificere blå øjne som brune.

tabel 1 AUC og nøjagtigheden af øjenfarveforudsigelsen ved hjælp af Hirispleks-s-system og Nord-eurasisk sæt SNP ‘ er til det samlede Nord-eurasiske datasæt
tabel 2 AUC og nøjagtigheden af øjenfarveforudsigelsen ved hjælp af hirispleks-s sæt SNP ‘ er til de regionale nord-eurasiske datasæt

øjen-og hårfarve forudsigelse i nord-eurasiske populationer: søgning efter nye informative alleler. Den generelle arbejdsgang

vores genetiske data om de fænotypede individer omfattede den fulde sekventering af de pigmenteringsassocierede gener og relevante intergeniske regioner snarere end kun tidligere kendte SNP ‘ er. Således var vi potentielt i stand til at afsløre de nye informative alleler i de kendte gener. I alt kaldte vi 117.012 SNP ‘ er i de 53 gener og intergeniske regioner.

til forudsigelse af øjenfarve udførte vi funktionsvalgalgoritmer for at få nye informative alleler til Nord-eurasiske populationer til 4 datasæt:

  1. Pooled North Eurasian datasæt

  2. europæisk Rusland

  3. Kaukasus

  4. Vestsibirien

til forudsigelse af hårfarve brugte vi 5 datasæt:

  1. Pooled North Eurasian datasæt

  2. europæisk Rusland

  3. Kaukasus

  4. Vestsibirien

  5. Nordasien

nordasiatiske datasæt blev kun analyseret for forudsigelse af hårfarve på grund af det faktum, at der for denne region er en observeret variation i hårfarve, mens der for øjenfarve ikke er nogen sådan variation.

hvert datasæt er opdelt i forholdet 60:40 i Trænings-og testprøver med bevarelse af procentdelen af prøver for hver klasse. For det samlede datasæt kontrollerede vi, at prøver fra forskellige regioner inkluderet i det samlede datasæt blev delt i samme forhold (60:40) for at undgå regionrelateret bias.

Funktionsudvælgelsesprocedure er udført på træningsdatasættet (figur S2). Feature udvælgelsesprocedure bestod af at anvende tre algoritmer:

  1. 1)

    f_regression

  2. 2)

    mutual_info_regression

  3. 3)

    Lasso funktion valg med forskellige alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)

Ved analyse af fordelingen af f-score (fra f_regression) og MI (fra mutual_info_regression) blev tærsklerne for de mest effektive funktioner med højeste score indstillet for hvert datasæt individuelt. Ved udførelse af lasso-funktionsvalget testede vi forskellige valg af alfa-parameteren. For hver værdi af alpha beregnede vi r2-score på træningsdatasæt for tilsvarende delmængde af SNP ‘ er, der har ikke-nul-koefficienter.

blandt disse undergrupper valgte vi de vigtigste i henhold til opnåede r2-score for hvert datasæt individuelt.

baseret på resultater fra tre algoritmer for funktionsvalg blev alle valgte SNP ‘er kombineret i de øverste SNP’ er lister for hvert datasæt.

i hver Top SNP-liste valgte vi SNP ‘ er, der har den bedste forudsigende effekt. Disse SNP ‘er dannede bedste SNP’ er lister, som vi brugte til at opbygge en klassifikator. For at vælge de bedste SNP ‘er brugte vi samme skala som hirispleks-s classificator:

  1. blå, mellemliggende og brun til øjenfarve

  2. Rød, blond, brun og mørk til hårfarve

vi betragtede disse klasser uafhængige af hinanden og forsøgte at opbygge klassifikatoren med den bedste effekt og det mindste SNP’ er sæt.

Vi brugte separate rangeringssystemer til forudsigelse af øjne og hårfarve til at estimere vigtigheden og forudsigelseskraften for hver SNP for at indsnævre SNPs-listerne.

udførelsen af de bedst valgte funktioner blev valideret på testdatasættet. For at evaluere kvaliteten af den model, vi beregnet R2 score (koefficient for bestemmelse regression score funktion) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), AUC score, præcision, tilbagekaldelse og nøjagtighed målinger.

forudsigelse af øjenfarve

identifikation af de øverste SNP ‘er i det samlede Nord-eurasiske datasæt

for at identificere de øverste SNP’ er, der er knyttet til øjenfarven i vores prøve, anvendte vi tre algoritmer: f_regression (F score), mutual_info_regression (MI) og lasso-funktionsvalg med forskellige alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).

vi analyserede f (f_regression) og MI (mutual_info_regression) scorefordelinger på tværs af prøverne og valgte de 30 bedste SNP ‘ er med de højeste score.

ifølge resultater fra Lasso feature selection besluttede vi at medtage i top SNP ‘er liste de mest afgørende – dem, der ikke har nul koefficienter for alpha = 0.5 (2 SNP’ er for ‘øjenfarve’ datasæt og 2 SNP ‘er for’ hårfarve ‘ datasæt) og alpha = 0.2 (8 SNP ‘er for’ øjenfarve ‘datasæt og 8 SNP’ er for ‘hårfarve’ datasæt) – disse SNP ‘ er bærer mest forudsigelseskraft i henhold til R2 score værdier fordeling over forskellige alphas. Vi inkluderede også SNP-sæt til alphas 0.1, 0.01 og 0.005.

den endelige top SNP-liste bestod af 256 SNP ‘ er (yderligere fil 3).

indsnævring af listen over SNP ‘ er og bygningsklassificering for øjenfarve baseret på den

Vi tildelte hver SNP en score fra 0 til 3. Scoren 3 tildeles kun for SNP ‘er fra den samlede datasæt top SNP’ er liste på grund af resultaterne for det datasæt er meget mere robuste end for regionale datasæt (prøvestørrelser for de regionale datasæt findes i den ekstra fil 4). Scoren 3 tildeles SNP ‘ er, der er i top 5 med højeste f-score eller har koefficienter mere eller lig med 0,1 i absolut værdi i Lasso-modeller for alpha 0,2 eller har ikke-nul koefficienter i Lasso-modeller for alpha 0,5. For den samlede prøve er scoren 2 tildelt SNP ‘ er, der er i top 10 med højeste F-eller MI-score eller har ikke-nul-koefficienter i Lasso-modellen for alpha 0.2. Scoren 1 er tildelt SNP ‘ er, der har koefficienter større eller lig med 0,1 i Lasso model for alpha 0,005. Til alle andre SNP ‘ er tildelte vi scoren 0. Alle 36 SNP ‘ er med ikke-nul score dannede den bedste SNP-liste og blev brugt til klassifikatoren.

de fem SNP ‘ er havde den højeste score 3. To af dem var velkendte øjenfarvefremkaldende SNP ‘ er (rs1129038 og rs12913832), mens de resterende tre ikke tidligere er rapporteret som kraftige øjenfarveforudsigende alleler.

Variation af den bedste SNP-liste på tværs af geografiske regioner

hele analysen udført for det samlede Nord-eurasiske datasæt er gentaget for befolkningerne fra de tre følgende regioner separat: europæisk Rusland, Kaukasus og Vestsibirien. For regionale datasæt blev scoren 2 tildelt SNP ‘ er, der var i top 5 med højeste F-og MI-score eller havde koefficienter mere eller lig med 0.1 i absolut værdi i Lasso model for alpha 0,5 eller ikke-nul koefficienter i Lasso model for alpha 0,7. Scoren 1 blev tildelt SNP ‘ er, der var i top 6 med højeste F-og MI-score eller har koefficienter, der ikke er nul-koefficienter i Lasso-modeller for alpha 0.7 og 0.5. Yderligere fil 5 præsenterer de resulterende bedste SNPs-sæt for alle tre regioner. Sammenligningen af de regionale lister og listen for den samlede prøve findes i den supplerende fil 6. Generelt er sættet af bedste SNP ‘ er stabilt på tværs af regionerne: SNP ‘erne med de højeste score er inkluderet i de fleste lister, mens blandt de andre SNP’ er er der begge, identificeret inden for hver region og regionsspecifik. Yderligere undersøgelse af de yderligere fænotypede prøver er nødvendig for at replikere betydningen af de regionsspecifikke SNP ‘ er.

den fusionerede SNPs-liste blev rangeret efter den samlede score (som summen af alle scoringer for 4 prøver: Kaukasus, Vestsibirien, europæisk Rusland og samlet) (yderligere fil 6). Top 7 SNP ‘er har den højeste samlede score og forekom i mere end et datasæt, hvilket er en yderligere bekræftelse på, at disse SNP’ er har en stærk forudsigende effekt (tabel 3). To af disse SNP ‘er (rs1129038 og rs12913832) er allerede inkluderet i hirispleks-s-panelet, mens andre fem SNP’ er er nye kandidater til øjenfarveforudsigelse i de Nord-eurasiske befolkninger. Vi estimerede frekvenserne af disse fem SNP ‘ er i Nord-eurasiske befolkninger (yderligere fil 7). Hver SNP blev detekteret med polymorfe frekvenser i hver regional befolkning, så disse SNP ‘ er er almindelige snarere end sjældne.

tabel 3 listen over 36 bedste Nord-eurasiske SNP ‘ er til forudsigelse af øjenfarve

de Nord-eurasiske SNP ‘er satte ydeevne

Vi estimerede ydeevnen for SNP’ erne, der demonstrerede den højeste forudsigende kraft i Vores Nord eurasisk prøve. Det minimale sæt omfattede 7 SNP ‘ er, hvoraf to tidligere var inkluderet i Hirispleks-s-panelet. Det optimale sæt omfattede 36 SNP ‘ er, der modtog de højeste score på det samlede Nord-eurasiske datasæt. Vi testede klassificeringsydelsen for begge sæt Nord-eurasiske SNP ‘ er. Figur 2 præsenterer ROC-kurver og AUC-score for forudsigelse af tre øjenfarver. Nøjagtigheden af 7 SNPs-sæt er næsten lige så effektiv som forudsigelse baseret på 41 Hirispleks-s SNP ‘er, mens sættet med 36 Nord-eurasiske SNP’ er lidt bedre end 41 Hirispleks-s SNP ‘ er på vores prøve (Fig. 2, Tabel 1).

Fig. 2
figur2

ROC-AUC kurver for øjenfarve forudsigelse på Nord-eurasiske datasæt for tre-kvaliteter skala. Panel a: resultater på 7 SNPs sæt. Panel b: resultater på 36 SNP ‘ er

Hårfarveforudsigelse

Vi udførte den samme funktionsudvælgelsesanalyse for at finde og evaluere Top SNP ‘ er-liste for forudsigelse af hårfarve for samlet Nord-eurasisk prøve, som inkluderer populationer fra følgende regioner: Kaukasus, europæisk Rusland, Vestsibirien og Nordasien.

Vi valgte top 322 SNP ‘er og indsnævrede listen til 33 bedste SNP’ er, der har den stærkeste ydeevne til 4-Grade klassificering: Rød, blond, brun og mørk hårfarve, samme skala som Hirispleks-S (yderligere fil 8).

Vi tildelte signifikansscore for at vælge det mindste sæt SNP ‘er på følgende måde:

  1. 1)

    scoren 3 er tildelt SNP’ er, der er i top 5 med højeste F-eller MI-score eller har koefficienter mere end 0,05 i absolut værdi i Lasso-modeller for alpha 0,2 eller har ikke-nul koefficienter i Lasso-modeller for alpha 0.5

  2. 2)

    scoren 2 er blevet tildelt SNP ‘er i top 10 med højeste F-eller MI-score

  3. 3)

    resten SNP’ er på 33 bedste SNP ‘er har scoren 1

vi var i stand til at opdage de mest kraftfulde 11 SNP’ er, der har den højeste score (3), tre af dem er inkluderet i rs16891982, rs12913832 og rs1129038).

vi kontrollerede klassifikatorens ydeevne baseret på 11 SNPs-sæt og forsøgte at estimere dets evne til at skelne mellem 4 uafhængige klasser (det samme som for Hirispleks-s): rødt, blondt, brunt og mørkt hår (yderligere fil 9).

derudover forsøgte vi at fusionere 2 klasser af hårfarve – blond og brun – fordi algoritmen ikke har nok strøm til at skelne dem, og kontrolleret udførelsen af udvalgte SNP ‘ er til 3 klasse skala. Som vi kan se af resultaterne (Fig. 3) klassificeringsydelsen forbedredes markant for begge sæt SNP ‘er: de mest kraftfulde 11 SNP’ er og 33 bedste SNP ‘ er.

Fig. 3
figur3

A. ROC-AUC kurver for hårfarve forudsigelse på Nord-eurasiske datasæt for tre-kvaliteter skala. Panel a: resultater på 11 SNPs sæt. Panel b: resultater på 33 SNPs sæt

de nye potentielt informative SNP ‘er

vores Analyse identificerede fem nye SNP’ er, som viste den høje forudsigelseskraft for øjenfarven. Disse SNP ‘ er blev afsløret på den samlede Nord-eurasiske prøve og blev replikeret på de mest regionale underprøver. Fire af disse SNP ‘ er er placeret i HERC2-genet, og en (rs4812447) er i intergen region. HERC2 (HECT og RLD domæne indeholdende E3 allestedsnærværende Protein Ligase 2) gen tilhører HERC genfamilien, der koder for en gruppe usædvanligt store proteiner, som indeholder flere strukturelle domæner. Genetiske variationer i dette gen er forbundet med hud/hår/øjenpigmenteringsvariabilitet .

begrænsninger af den anvendte tilgang

vi analyserede ydeevnen for de kendte pigmenteringsprognotive SNP ‘er og kiggede efter de nye SNP’ er i tidligere ikke-studerede populationer fra forskellige geografiske områder. Denne regionalbaserede tilgang tillod identificere SNP ‘ er, der er informative for de bestemte populationer, men gjorde stikprøvestørrelserne fra hver region ret begrænsede. Derfor, vi var ikke i stand til at opdele vores prøve i træningsdatasættet og valideringsdatasættet – dette ville resultere i at reducere prøvestørrelser til tal, der ikke tillader den statistisk signifikante analyse. Derfor tvang vores tilgang os til at bruge det samme datasæt til SNPs-opdagelse, opbygning af klassificeringsmodellen og også til validering, hvilket kan resultere i overvurdering af forudsigelser. Derfor, udførelsen af vores SNP ‘er bør betragtes som et øvre skøn, og de identificerede SNP’ er som kandidat, indtil verifikation af den uafhængige prøve i de fremtidige undersøgelser. Selvom stabiliteten af de øverste øjenfarveforudsigende SNP ‘er på tværs af geografiske regioner delvis verificerer effektiviteten af de nyligt identificerede forudsigelige SNP’ er.

Related Posts

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *