- Montering av datasettet
- Validere presisjonen Av HIrisPlex på nord Eurasiske populasjoner
- øye og hårfarge prediksjon i nord eurasiske populasjoner: søker etter nye informative alleler. Den generelle arbeidsflyten
- prediksjon Av Øyenfarge
- Identifisering av De øverste Snpene i det samlede Nord-Eurasiske datasettet
- Innsnevrer listen Over SNPs og bygnings klassifikator for øyenfarge basert på den
- Variasjon av Den beste SNPs-listen over geografiske regioner
- de Nord Eurasiske SNPs sett ytelse
- Hårfarge prediction
- den nye potensielt informative SNPs
- Begrensninger av den brukte tilnærmingen
Montering av datasettet
vi fenotyperte 300 individer fra 48 befolkninger I Russland og nabolandene ved å identifisere deres øye – og hårfarger. Uavhengig fenotyping av tre eksperter og tilgjengeligheten av bilder for revisiting gjort fenotyping pålitelig og reproduserbar. Populasjoner ble gruppert i fire regionale datasett: Europeisk Russland, Vest-Sibir, Kaukasus Og Nord-Asia; Fig. 1a presenterer utvalgssteder og gruppering i de regionale datasettene. I samsvar med det store området samplet, har de regionale metapopulasjonene kontrasterende genetisk bakgrunn. VI utførte PC-analysen av populasjonene som inngår i denne studien for å illustrere disse funnene (Fig. 1b). Vi bemerker at befolkningene Som HIris-plex-S er utviklet og validert på (nederlandsk, polsk, Irsk og gresk) okkuperer den smale sonen på DEN «vestlige» ekstreme AV PC-plottet, mens befolkningene som er tilstede i vår studie, spesielt Nord-Asia, Kaukasus og Vest-Sibirien, er uttalt forskjellig fra Vest-Europeerne og fra hverandre. Dermed ble alle nedstrømsanalyser utført for hvert regionale datasett og for det samlede datasettet.
DNA-prøver fra disse 300 individer ble sekvensert ved hjelp av den spesialdesignede exome capture som inkluderte, i tillegg til standard Roche exome capture, introniske og intergeniske regioner kjent for å bære pigmenteringsrelaterte polymorfe steder (se Metoder for detaljer).
det kombinerte datasettet inkluderte fenotypiske samtaler og genotypiske samtaler for alle individer. Fenotypiske samtaler inkluderte fem kategorier av hårmørket, tre kategorier av hårrødhet og fem kategorier av øyemørket. Genotypiske samtaler inkluderte genotyper av alle polymorfe steder identifisert innenfor de 53 gener og intergeniske regioner kjent for å være involvert i øye / hårpigmentering. Nedstrømsanalysene ble utført på undergruppene av dette kombinerte datasettet.
Validere presisjonen Av HIrisPlex på nord Eurasiske populasjoner
vi startet med å estimere presisjonen av standard øye / hår prediksjon system i de nylig fenotyperte populasjoner. Fra det kombinerte datasettet hentet vi fenotypiske og genotypiske krav til 24 SNPs inkludert I HIrisPlex-S. da spådde vi øye – og hårfarge fra genotyper ved hjelp av Det elektroniske HIrisPlex-s-verktøyet og sammenlignet de forventede fenotypene med de virkelige fenotypene (Tabell 1). Tabell 2 presenterer resultatene for prediksjon av øyenfarge i forskjellige metapopulasjoner(unntatt Nord-Asia hvor frekvensen av lyse øyne er lav). Vi fant (Tabell 1, Tilleggsfil 1) AT AUC-verdien i Det samlede Nord-Eurasiske datasettet bare er litt lavere enn I Vest – / Sentral-Europeerne (spesielt for brunt og rødt hår). Men da vi analyserte resultatene for hver region separat (Tabell 2), fant vi at ytelsen Til HIrisPlex-s panel for å forutsi øyenfarge er lavere for personer fra Kaukasus-regionen (AUC-verdier er 0.83 og 0.78, for blå og mørke øyne). Spesielt er tilbakekallingen for blå øyne i Kaukasus betydelig lavere sammenlignet med De Andre Nord-Eurasiske regionene-bare 47% (Tilleggsfil 2). Det kan tyde på at gener av pigmenteringsmetabolismeveiene i Kaukasus-populasjonene bærer allelspekteret noe annerledes enn Det I Europa. Ved partisjonering av datasettet i henhold til fenotypisk klasse (Tabell 1 og Tabell 2) fant vi at forutsi både blå og brune øyne i russisk befolkning er mye mindre effektiv. Spesielt Har HirisPlex-s-systemene en tendens til å feilklassifisere blå øyne som brune.
øye og hårfarge prediksjon i nord eurasiske populasjoner: søker etter nye informative alleler. Den generelle arbeidsflyten
våre genetiske data på fenotypede individer inkluderte full sekvensering av pigmenteringsassosierte gener og relevante intergeniske regioner i stedet for tidligere kjente Snp-er. Dermed var vi potensielt i stand til å avsløre de nye informative allelene i de kjente gener. Totalt kalte vi 117.012 Snper i de 53 gener og intergeniske regioner.
for øyenfarge prediksjon vi utført funksjonen utvalg algoritmer for å få nye informative alleler For Nord Eurasiske populasjoner for 4 datasett:
-
Europeiske Russland
-
Kaukasus
-
Samlet Nord Eurasiske datasett
-
europeiske russland
-
vest-Sibir
- 1)
f_regresjon
- 2)
mutual_info_regresjon
- 3)
lassofunksjonsvalg med forskjellige alfaer (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
-
blå, middels og brun for øyenfarge
-
rød, blond, brun og mørk for hårfarge
For hår farge prediksjon vi brukte 5 datasett:
nord-Asia
Nord-asiatiske datasett ble analysert bare for hårfarge prediksjon på grunn av det faktum for denne regionen er det en observert variasjon i hårfarge mens for øyenfarge er det ingen slik variasjon.
hvert datasett er delt i 60: 40-forhold i trening og testprøver med å bevare prosentandelen av prøver for hver klasse. For det samlede datasettet kontrollerte vi at prøver fra ulike regioner inkludert i samlede datasett ble delt i samme andel (60:40) for å unngå regionrelatert skjevhet.
Prosedyren For Funksjonsvalg er utført på treningsdatasettet (Figur S2). Funksjon utvelgelsesprosedyren besto av å anvende tre algoritmer:
ved analyse av fordelingen Av f-score (fra f_regresjon) og MI (fra mutual_info_regresjon) ble tersklene for de mest effektive funksjonene med høyest score satt for hvert datasett individuelt. Når du utfører lasso-funksjonsvalget, testet vi forskjellige valg av alfa-parameteren. For hver verdi av alfa beregnet vi r2-poeng på treningsdatasett for tilsvarende delmengde Av SNPs som har ikke-nullkoeffisienter.
Blant disse undergruppene valgte vi de viktigste i henhold til oppnådde r2-score for hvert datasett individuelt.
basert på resultater fra tre algoritmer for funksjonsvalg ble alle valgte Snp-Er kombinert i De øverste Snp-listene for hvert datasett.
i hver Topp SNPs-liste valgte Vi SNPs som har den beste prediktive kraften. Disse SNPs dannet beste SNPs lister som vi pleide å bygge en klassifikator. For å velge De beste SNPs, brukte vi samme skala som HIrisPlex-s classificator:
vi vurderte disse klassene uavhengig av hverandre og prøvde å bygge klassifikatoren med den beste kraften og det minste SNPs-settet.
Vi brukte separate rangeringssystemer for øye-og hårfargeforutsigelse for å estimere betydningen og prediksjonskraften til HVER SNP for å begrense SNPs-lister.
ytelsen til de best valgte funksjonene ble validert på testdatasettet. For å evaluere kvaliteten på modellen beregnet Vi R2-poengsum (koeffisient for bestemmelse regresjonsskårfunksjon) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), AUC-poengsum, presisjon, tilbakekalling og nøyaktighetsmålinger.
prediksjon Av Øyenfarge
Identifisering av De øverste Snpene i det samlede Nord-Eurasiske datasettet
for å identifisere de øverste Snpene knyttet til øyefargen i vårt utvalg brukte vi tre algoritmer: f_regresjon (f score), mutual_info_regresjon (MI) og Lassofunksjonsvalg med forskjellige alfaer (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
vi analyserte f (f_regression) og MI (mutual_info_regression) score fordelinger på tvers av prøvene og valgte de 30 Beste SNPs med høyest score.
Ifølge resultatene Fra lasso-funksjonsvalg bestemte vi oss for å inkludere de mest avgjørende I topp SNPs-listen – de som ikke har nullkoeffisienter for alfa = 0,5 (2 SNPs for ‘øyenfarge’ datasett og 2 SNPs for ‘hårfarge’ datasett) og alfa = 0.2 (8 SNPs for’ øyenfarge ‘datasett og 8 SNPs for ‘hårfarge’ datasett ) – Disse SNPs bære mest prediksjon makt i henhold til r2 score verdier fordeling over ulike alfaer. VI inkluderte OGSÅ SNP-sett for alfaer 0,1, 0,01 og 0,005.
den endelige Topp SNPs-listen besto av 256 SNPs (Tilleggsfil 3).
Innsnevrer listen Over SNPs og bygnings klassifikator for øyenfarge basert på den
vi tildelte HVER SNP en score fra 0 til 3. Poengsummen 3 tilordnes bare For Snper fra den samlede datasettet top SNPs-listen på grunn av at resultatene for datasettet er mye mer robuste enn for regionale datasett(utvalgsstørrelser for de regionale datasettene finnes i tilleggsfilen 4). Poengsummen 3 er tilordnet Snper som er i topp 5 med høyeste f-poengsum eller har koeffisienter mer eller lik 0,1 i absolutt verdi i Lasso-modeller for alfa 0,2 eller har ikke-null-koeffisienter i Lasso-modeller for alfa 0,5. For den samlede prøven er poengsummen 2 tilordnet Snper som er i topp 10 med høyeste F-eller MI-score eller har ikke-null-koeffisienter i lasso-modellen for alfa 0.2. Poengsummen 1 er tilordnet SNPs som har koeffisienter større eller lik 0,1 i lasso-modellen for alfa 0,005. Til alle Andre SNPs tildelte vi poengsummen 0. Alle 36 SNPs med ikke-null score dannet den beste SNPs-listen og ble brukt til klassifikatoren.
De fem Snpene hadde høyest poengsum 3. To av Dem var kjente øyefarge-forårsaker SNPs (rs1129038 og rs12913832) mens de resterende tre ikke har blitt rapportert tidligere som kraftige øyenfarge prediktive alleler.
Variasjon av Den beste SNPs-listen over geografiske regioner
hele analysen utført For det samlede Nord-Eurasiske datasettet har blitt gjentatt for befolkningene fra de tre følgende regionene separat: Europeisk Russland, Kaukasus og Vest-Sibirien. For regionale datasett ble score 2 tildelt Snp-er som var i topp 5 med høyeste F-og MI-score eller hadde koeffisienter mer eller lik 0.1 i absolutt verdi I Lasso modell for alfa 0,5 eller ikke-null koeffisienter I Lasso modell for alfa 0,7. Poengsummen 1 ble tildelt Snper som var i topp 6 med høyeste F-og MI-score eller har koeffisienter som ikke er nullkoeffisienter i lassomodeller for alfa 0,7 og 0,5. Tilleggsfil 5 presenterer de resulterende beste SNPs-settene for alle tre regionene. Sammenligningen av de regionale listene og listen for den samlede prøven er til Stede i tilleggsfilen 6. Generelt er settet med beste Snper stabilt over hele regionene: Snp – ene med høyest score er inkludert i de fleste lister, mens blant De Andre Snp-ene er det begge, identifisert innenfor hver region og regionspesifikk. Videre studier på de ekstra fenotypiske prøvene er nødvendig for å replikere betydningen av de regionspesifikke Snp-ene.
Den sammenslåtte SNPs-listen ble rangert etter total score (som summen av alle score for 4 prøver: Kaukasus, Vest-Sibir, Europeisk Russland og samlet) (Tilleggsfil 6). Topp 7 Snper har den høyeste totale poengsummen og skjedde i mer enn ett datasett, noe som er en ytterligere bekreftelse på at Disse Snpene har en sterk prediktiv kraft (Tabell 3). To Av Disse Snper (rs1129038 og rs12913832) er allerede inkludert I HIrisPlex-s panel, mens andre fem Snper er nye kandidater for øyenfarge forutsi I Nord Eurasiske populasjoner. Vi estimerte frekvensene av disse fem Snp-ene i Nord-Eurasiske populasjoner (Tilleggsfil 7). HVER SNP ble påvist med polymorfe frekvenser i hver regionpopulasjon, så Disse Snp er vanlige i stedet for sjeldne.
de Nord Eurasiske SNPs sett ytelse
vi estimerte ytelsen Til SNPs som viste den høyeste prediktive kraften i Vår Nord eurasisk prøve. Det minimale settet inkluderte 7 SNPs, hvorav to tidligere var inkludert I HIrisPlex – s-panelet. Det optimale settet inkluderte 36 SNPs som fikk høyest score på det samlede Nord-Eurasiske datasettet. Vi testet klassifiseringsytelsen til begge settene Av Nord-Eurasiske Snper. Figur 2 presenterer ROC kurver og AUC score for prediksjon av tre øyenfarger. Nøyaktigheten av 7 SNPs sett er nesten like effektiv som prediksjon basert på 41 HIrisPlex-S SNPs, mens settet med 36 Nord Eurasiske SNPs litt utkonkurrerer 41 HIrisPlex-S SNPs på vår prøve (Fig . 2, Tabell 1).
Hårfarge prediction
vi utførte den samme funksjonen utvalg analyse for å finne og evaluere topp SNPs liste for hårfarge prediksjon for samlet Nord Eurasiske prøve, som inkluderer populasjoner fra følgende regioner: Kaukasus, Europeisk Russland, Vest-Sibir og Nord-Asia.
vi valgte topp 322 SNPs og innsnevret listen til 33 beste SNPs som har den sterkeste ytelsen for 4-klasse klassifisering: rød, blond, brun og mørk hårfarge, samme skala Som HIrisPlex-S (Tilleggsfil 8).
vi tildelte signifikanspoeng for å velge minimumssettet Av Snper på følgende måte:
- 1)
poengsummen 3 har blitt tildelt Snper som er i topp 5 med høyeste F-eller MI-score eller har koeffisienter mer enn 0,05 i absolutt verdi i Lassomodeller for alfa 0,2 eller har ikke-null-koeffisienter i Lassomodeller for alfa 0.5
- 2)
poengsummen 2 har blitt tildelt SNPs i topp 10 med høyest f-eller MI-score
- 3)
resten SNPs av 33 beste SNPs-listen har poengsummen 1
vi var i Stand Til å oppdage de kraftigste 11 SNPs som har høyest poengsum (3), tre av dem er inkludert I HIrisPlex-s panel (rs16891982, rs12913832 og rs1129038).
vi sjekket ytelsen til klassifikatoren basert på 11 SNPs sett og prøvde å estimere evnen til å skille mellom 4 uavhengige klasser( det samme som For HIrisPlex-S): rødt, blondt, brunt og mørkt hår (Tilleggsfil 9).
I Tillegg prøvde Vi å slå sammen 2 klasser av hårfarge-blond og brun – fordi algoritmen ikke har nok kraft til å skille dem, og sjekket ytelsen til utvalgte SNPs for 3 klasse skala. Som vi kan se fra resultatene (Fig. 3) klassifikatorytelsen forbedret seg betydelig for begge settene Med SNPs: de kraftigste 11 SNPs og 33 beste SNPs.
den nye potensielt informative SNPs
vår analyse identifisert fem nye SNPs som viste høy prediksjon makt for øyenfarge. Disse Snp-Ene ble avslørt på den samlede nord-Eurasiske prøven og ble replikert på de mest regionale underprøvene. Fire Av Disse Snpene er lokalisert I HERC2-genet, og en (rs4812447) er i intergenisk region. HERC2 (HECT Og RLD Domene Som Inneholder E3 Ubiquitin Protein Ligase 2) genet tilhører herc genet familien som koder for en gruppe av uvanlig store proteiner, som inneholder flere strukturelle domener. Genetiske variasjoner i dette genet er forbundet med hud / hår / øyepigmenteringsvariabilitet .
Begrensninger av den brukte tilnærmingen
vi analyserte ytelsen til de kjente pigmenteringsforebyggende Snp-ene og så etter de nye Snp-ene i tidligere ikke-studerte populasjoner fra forskjellige geografiske områder. Denne regionale baserte tilnærmingen tillot å identifisere Snper som er informative for de bestemte populasjonene, men gjorde utvalgsstørrelsene fra hver region ganske begrenset. Derfor var vi ikke i stand til å dele vår prøve inn i treningsdatasettet og valideringsdatasettet – dette ville resultere i å redusere utvalgsstørrelser til tall som ikke tillater statistisk signifikant analyse. Derfor tvang vår tilnærming oss til å bruke det samme datasettet for SNPs-oppdagelse, bygge klassifikasjonsmodellen, og også for valideringen, noe som kan resultere i prediksjonsoverestimering. Derfor bør ytelsen til Våre Snp-Er betraktes som et øvre estimat, og de identifiserte Snp-ene som kandidatens til verifisering på den uavhengige prøven i fremtidige studier. Selv om stabiliteten til de øverste øyefarge prediktive Snp-ene på tvers av geografiske områder delvis verifiserer effektiviteten til de nylig identifiserte prediktive Snp-ene.