- montera datasetet
- validera precisionen av HIrisPlex på norra eurasiska populationer
- ögon och hårfärg förutsägelse i norra eurasiska populationer: söker efter nya informativa alleler. Det allmänna arbetsflödet
- ögonfärg förutsägelse
- identifiera de bästa SNP: erna i den poolade Norra eurasiska datasetet
- begränsa listan över SNP och byggklassificerare för ögonfärg baserat på den
- Variation av den bästa SNPs-listan över geografiska regioner
- Norra eurasiska SNP: er satt prestanda
- Hårfärgsprognos
- de nya potentiellt informativa SNP: erna
- begränsningar av det använda tillvägagångssättet
montera datasetet
vi fenotypade 300 individer från 48 populationer i Ryssland och grannländerna genom att identifiera deras ögon-och hårfärger. Oberoende fenotypning av tre experter och tillgänglighet av foton för återbesök gjorde fenotypningen pålitlig och reproducerbar. Populationer grupperades i fyra regionala datamängder: Europeiska Ryssland, västra Sibirien, Kaukasus och Nordasien; Fig. 1a presenterar provtagningsplatserna och grupperar i de regionala datamängderna. I överensstämmelse med det stora området som provtas har de regionala metapopulationerna kontrasterande genetisk bakgrund. Vi utförde PC-analysen av populationerna som ingår i denna studie för att illustrera dessa resultat (Fig. 1b). Vi noterar att de populationer på vilka HIris-plex-S har utvecklats och validerats (holländska, polska, irländska och grekiska) upptar den smala zonen på den ”västra” extremen av PC-tomten, medan populationer som finns i vår studie, särskilt Nordasiatiska, Kaukasus och västra Sibirien, skiljer sig uttalat från västeuropeiska och från varandra. Således utfördes alla nedströmsanalyser för varje regional dataset och för den poolade datasetet.
DNA-prover från dessa 300 individer sekvenserades med hjälp av den specialdesignade exome capture som förutom standard Roche exome capture inkluderade de introniska och intergena regionerna som är kända för att bära pigmenteringsrelaterade polymorfa platser (se metoder för detaljer).
den kombinerade datamängden inkluderade fenotypiska samtal och genotypiska samtal för alla individer. Fenotypiska samtal inkluderade fem kategorier av hårmörket, tre kategorier av hårrödhet och fem kategorier av ögonmörket. Genotypiska samtal inkluderade genotyper av alla polymorfa platser identifierade inom de 53 gener och intergena regioner som är kända för att vara involverade i ögon/hårpigmentering. Nedströmsanalyserna utfördes på delmängderna i denna kombinerade dataset.
validera precisionen av HIrisPlex på norra eurasiska populationer
vi började med att uppskatta precisionen av standard ögon / hår prediktionssystem i de nyligen fenotypade populationerna. Från den kombinerade datamängden extraherade vi fenotypiska och genotypiska samtal för 24 SNP som ingår i HIrisPlex-S. sedan förutspådde vi ögat och hårfärgen från genotyper med hjälp av online HIrisPlex-s-verktyget och jämförde de förutspådda fenotyperna med de verkliga fenotyperna (Tabell 1). Tabell 2 presenterar resultaten för ögonfärg förutsägelse i olika metapopulationer (exklusive Nordasien där frekvensen av ljusa ögon är låg). Vi fann (Tabell 1, Ytterligare fil 1) att AUC-värdet i den poolade Norra eurasiska datasetet endast är något lägre än i väst – /Centraleuropeerna (särskilt för brunt och rött hår). Men när vi analyserade resultaten för varje region separat (tabell 2) fann vi att prestanda för HIrisPlex-s-panelen för att förutsäga ögonfärg är lägre för individer från Kaukasusregionen (AUC-värden är 0, 83 och 0, 78, för blå och mörka ögon). Speciellt är återkallelsen för blå ögon i Kaukasus betydligt lägre jämfört med de andra Norra eurasiska regionerna – endast 47% (ytterligare Fil 2). Det kan indikera att gener av pigmenteringsmetaboliska vägar i Kaukasuspopulationerna bär allelspektrum något annorlunda än i Europa. Vid partitionering av datasetet enligt den fenotypiska klassen (Tabell 1 och Tabell 2) fann vi att det är mycket mindre effektivt att förutsäga de båda, blå och bruna ögonen i den ryska befolkningen. I synnerhet tenderar HirisPlex – s-systemen att felklassificera blå ögon som bruna.
ögon och hårfärg förutsägelse i norra eurasiska populationer: söker efter nya informativa alleler. Det allmänna arbetsflödet
våra genetiska data om de fenotypade individerna inkluderade fullständig sekvensering av pigmenteringsassocierade gener och relevanta intergena regioner snarare än tidigare kända SNP. Således kunde vi potentiellt avslöja de nya informativa allelerna i de kända generna. Totalt kallade vi 117,012 SNP i de 53 generna och intergena regionerna.
för ögonfärg förutsägelse vi utförde funktion val algoritmer för att få nya informativa alleler för Norra eurasiska populationer för 4 datamängder:
-
poolade Norra eurasiska dataset
-
Europeiska Ryssland
-
Kaukasus
-
västra Sibirien
för hår färg förutsägelse vi använde 5 dataset:
-
poolade Norra eurasiska dataset
-
europeiska Ryssland
-
Kaukasus
-
västra Sibirien
-
Nordasien
Nordasiatiska dataset analyserades endast för hårfärg förutsägelse på grund av det faktum för denna region finns det en observerad variation i hårfärg medan för ögonfärg finns det ingen sådan variation.
varje dataset har delats i 60: 40-förhållande i tränings-och testprover med bevarandet av procentandelen prover för varje klass. För den poolade datamängden kontrollerade vi att prover från olika regioner som ingår i poolade dataset delades i samma proportion (60:40) för att undvika regionrelaterad bias.
Funktions urvalsprocedur har utförts på träningsdatasetet (figur S2). Funktion urvalsförfarande bestod av att tillämpa tre algoritmer:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
Lasso funktion val med olika alfa (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
vid analys av fördelningen av f-poäng (från f_regression) och MI (från mutual_info_regression) fastställdes tröskelvärdena för de mest effektiva funktionerna med högsta poäng för varje dataset individuellt. När vi utförde Lasso-funktions valet testade vi olika val av alfa-parametern. För varje värde av alfa beräknade vi R2-poäng på träningsdataset för motsvarande delmängd av SNP som har icke-nollkoefficienter.
bland dessa delmängder valde vi de viktigaste enligt erhållna r2-poäng för varje dataset individuellt.
baserat på resultat från tre algoritmer för funktionsval kombinerades alla valda SNP: er i de bästa SNP-listorna för varje dataset.
i varje topp SNPs-lista valde vi SNPs som har den bästa prediktiva kraften. Dessa SNP bildade bästa SNP-listor som vi brukade bygga en klassificerare. För att välja de bästa SNP: erna använde vi samma skala som HIrisPlex-s classificator:
-
blå, mellanliggande och brun för ögonfärg
-
röd, blond, Brun och mörk för hårfärg
vi ansåg dessa klasser oberoende av varandra och försökte bygga klassificeraren med den bästa kraften och den minsta SNP-uppsättningen.
Vi använde separata rankningssystem för ögon-och hårfärgsprediktion för att uppskatta vikten och förutsägelseskraften för varje SNP för att begränsa SNPs-listorna.
prestanda för de bästa valda funktionerna validerades på testdatasetet. För att utvärdera kvaliteten på modellen beräknade vi R2-poäng (bestämningskoefficient regression score-funktion) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), AUC-poäng, precision, återkallelse och noggrannhet.
ögonfärg förutsägelse
identifiera de bästa SNP: erna i den poolade Norra eurasiska datasetet
för att identifiera de bästa SNP: erna som är associerade med ögonfärgen i vårt prov tillämpade vi tre algoritmer: f_regression (f-poäng), mutual_info_regression (MI) och lasso feature selection med olika alfa (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
vi analyserade F (f_regression) och MI (mutual_info_regression) poängfördelningar över proverna och valde de 30 bästa SNP: erna med de högsta poängen.
enligt resultat från Lasso feature selection bestämde vi oss för att inkludera i topp SNPs – listan de mest avgörande-de som inte har nollkoefficienter för alpha = 0.5 (2 SNPs för ’ögonfärg’ dataset och 2 SNPs för ’hårfärg’ dataset) och alpha = 0.2 (8 SNP för’ ögonfärg ’dataset och 8 SNP för’ hårfärg ’ dataset) – dessa SNP: er har mest förutsägelseskraft enligt R2-poängvärden fördelning över olika alfa. Vi inkluderade också SNP-uppsättningar för alphas 0.1, 0.01 och 0.005.
den slutliga topp SNPs listan bestod av 256 SNPs (ytterligare fil 3).
begränsa listan över SNP och byggklassificerare för ögonfärg baserat på den
vi tilldelade varje SNP en poäng från 0 till 3. Poängen 3 tilldelas endast för SNP: er från den poolade dataset top SNP-listan på grund av att resultaten för den datamängden är mycket mer robusta än för regionala dataset (provstorlekar för de regionala dataset finns i tilläggsfilen 4). Poängen 3 tilldelas SNP: er som är i topp 5 med högsta F-poäng eller har koefficienter som är mer eller lika med 0,1 i absolut värde i Lasso-modeller för Alfa 0,2 eller har icke-nollkoefficienter i Lasso-modeller för Alfa 0,5. För det poolade provet tilldelas poängen 2 till SNP: er som är i topp 10 med högsta F-eller MI-poäng eller har icke-nollkoefficienter i Lasso-modellen för Alfa 0.2. Poängen 1 tilldelas SNP: er som har koefficienter större eller lika med 0,1 i Lasso-modellen för Alfa 0,005. Till alla andra SNP tilldelade vi poängen 0. Alla 36 SNP med icke-noll poäng bildade den bästa SNP-listan och användes för klassificeraren.
de fem SNP: erna hade den högsta poängen 3. Två av dem var välkända Ögonfärg-orsakande SNP (rs1129038 och rs12913832) medan de återstående tre inte tidigare har rapporterats som kraftfulla ögonfärg prediktiva alleler.
Variation av den bästa SNPs-listan över geografiska regioner
hela analysen som utförts för den poolade Norra eurasiska datasetet har upprepats för populationerna från de tre följande regionerna separat: Europeiska Ryssland, Kaukasus och västra Sibirien. För regionala dataset tilldelades poängen 2 till SNP: er som var i topp 5 med högsta F-och MI-poäng eller hade koefficienter mer eller lika med 0.1 i absolut värde i Lasso modell för Alfa 0,5 eller icke-noll koefficienter i Lasso modell för Alfa 0,7. Poängen 1 tilldelades SNP: er som var i topp 6 med högsta F-och MI-poäng eller har koefficienter som inte är nollkoefficienter i Lasso-modeller för Alfa 0.7 och 0.5. Ytterligare fil 5 presenterar de resulterande bästa SNPs-uppsättningarna för alla tre regionerna. Jämförelsen av de regionala listorna och listan för det poolade provet finns i tilläggsfilen 6. I allmänhet är uppsättningen bästa SNP: er stabila över regionerna: SNP: erna med de högsta poängen ingår i de flesta listorna, medan bland de andra SNP: erna finns båda, identifierade inom varje region och regionspecifik. Ytterligare studier på de ytterligare fenotypade proverna är nödvändiga för att replikera betydelsen av de regionspecifika SNP: erna.
den sammanslagna SNPs-listan rankades efter totalpoäng (som summan av alla poäng för 4 prover: Kaukasus, västra Sibirien, Europeiska Ryssland och poolade) (ytterligare fil 6). Topp 7 SNP har den högsta totala poängen och inträffade i mer än en dataset, vilket är en ytterligare bekräftelse på att dessa SNP har en stark prediktiv kraft (tabell 3). Två av dessa SNP: er (rs1129038 och rs12913832) ingår redan i HIrisPlex-s-panelen, medan andra fem SNP: er är nya kandidater för ögonfärg som förutsäger i de norra eurasiska befolkningarna. Vi uppskattade frekvenserna för dessa fem SNP i norra eurasiska populationer (ytterligare fil 7). Varje SNP detekterades med polymorfa frekvenser i varje regional befolkning, så dessa SNP är vanliga snarare än sällsynta.
Norra eurasiska SNP: er satt prestanda
vi uppskattade prestanda för SNP: er som visade den högsta prediktiva kraften i vår Norra Eurasian prov. Den minimala uppsättningen inkluderade 7 SNP, varav två tidigare ingick i HIrisPlex-s-panelen. Den optimala uppsättningen inkluderade 36 SNP som fick de högsta poängen på den poolade North Eurasian dataset. Vi testade klassificeringsprestandan för båda uppsättningarna av norra eurasiska SNP. Figur 2 presenterar ROC-kurvorna och AUC-poängen för förutsägelse av tre ögonfärger. Noggrannheten hos 7 SNPs set är nästan lika effektiv som förutsägelse baserad på 41 HIrisPlex – s SNPs, medan uppsättningen av 36 North Eurasian SNPs överträffar något 41 HIrisPlex-s SNPs på vårt prov (Fig. 2, Tabell 1).
Hårfärgsprognos
Vi utförde samma funktions urvalsanalys för att hitta och utvärdera topp SNPs-listan för hårfärgsprognos för poolade Norra eurasiska prov, som inkluderar populationer från följande regioner: Kaukasus, Europeiska Ryssland, västra Sibirien och Nordasien.
vi valde topp 322 SNP och minskade listan till 33 bästa SNP som har den starkaste prestandan för 4-gradig klassificering: röd, blond, Brun och mörk hårfärg, samma skala som HIrisPlex-S (Ytterligare fil 8).
vi tilldelade signifikanspoäng för att välja minsta uppsättning SNP: er på följande sätt:
- 1)
poängen 3 har tilldelats SNP: er som är i topp 5 med högsta F-eller MI-poäng eller har koefficienter mer än 0,05 i absolut värde i Lasso-modeller för alpha 0,2 eller har icke-nollkoefficienter i Lasso-modeller för alpha 0.5
- 2)
poängen 2 har tilldelats SNP i topp 10 med högsta F-eller MI-poäng
- 3)
resten SNP av 33 bästa SNP-listan har poängen 1
vi kunde upptäcka de mest kraftfulla 11 SNP som har högsta poängen (3), tre av dem ingår i HIrisPlex-s-panelen (rs16891982, rs12913832 och rs1129038).
vi kontrollerade klassificerarens prestanda baserat på 11 SNPs-set och försökte uppskatta dess förmåga att skilja mellan 4 oberoende klasser (samma som För HIrisPlex-S): Rött, Blont, brunt och mörkt hår (ytterligare fil 9).
dessutom försökte vi slå samman 2 klasser av hårfärg-blond och brun – eftersom algoritmen inte har tillräckligt med kraft för att skilja dem och kontrollerade prestanda för valda SNP för 3 grade skala. Som vi kan se från resultaten (Fig. 3) klassificeringsprestandan förbättrades avsevärt för båda uppsättningarna SNP: er: de mest kraftfulla 11 SNP: erna och 33 bästa SNP: erna.
de nya potentiellt informativa SNP: erna
vår analys identifierade fem nya SNP: er som visade den höga förutsägelseskraften för ögonfärgen. Dessa SNP avslöjades på det poolade Norra eurasiska provet och replikerades på de mest regionala delproverna. Fyra av dessa SNP finns i HERC2 gen, och en (rs4812447) är i intergen region. HERC2 (HECT och RLD domän innehållande E3 Ubiquitin Proteinligas 2) gen tillhör HERC-genfamiljen som kodar för en grupp ovanligt stora proteiner, som innehåller flera strukturella domäner. Genetiska variationer i denna gen är associerade med hud/hår/ögonpigmenteringsvariation .
begränsningar av det använda tillvägagångssättet
vi analyserade prestandan hos de kända pigmenteringsprediktiva SNP: erna och letade efter de nya SNP: erna i tidigare ostudierade populationer från olika geografiska områden. Detta regionala tillvägagångssätt tillät identifiera SNP som är informativa för de specifika populationerna men gjorde provstorlekarna från varje region ganska begränsade. Därför kunde vi inte dela upp vårt prov i träningsdatasetet och valideringsdatasetet – detta skulle resultera i att provstorlekarna reduceras till siffror som inte tillåter den statistiskt signifikanta analysen. Därför tvingade vårt tillvägagångssätt oss att använda samma dataset för SNPs-upptäckt, bygga klassificeringsmodellen och även för valideringen, vilket kan leda till förutsägelseöverskattning. Därför bör prestandan hos våra SNP: er betraktas som en övre uppskattning och de identifierade SNP: erna som kandidat fram till verifiering på det oberoende urvalet i framtida studier. Även om stabiliteten hos de övre ögonfärgens prediktiva SNP: er över geografiska regioner delvis verifierar effektiviteten hos de nyligen identifierade prediktiva SNP: erna.