optimalisatie van de genetische voorspelling van de oog-en haarkleur voor Noord-Euraziatische populaties

assemblage van de dataset

we fenotypeerden 300 individuen uit 48 populaties in Rusland en de buurlanden door hun oog-en haarkleuren te identificeren. Onafhankelijke fenotypering door drie experts en beschikbaarheid van foto ‘ s voor revisiting maakten de fenotypering betrouwbaar en reproduceerbaar. Populaties werden gegroepeerd in vier regionale datasets: Europees Rusland, West-Siberië, Kaukasus en Noord-Azië; Fig. 1a geeft de bemonsteringsplaatsen weer en groepeert deze in de regionale datasets. In overeenstemming met het grote bemonsterde gebied, hebben de regionale metapopulaties contrasterende genetische achtergrond. We hebben de PC-analyse van de populaties in deze studie uitgevoerd om deze bevindingen te illustreren (Fig. 1 ter). We merken op, dat de populaties waarop de HIris-plex-S is ontwikkeld en gevalideerd (Nederlands, Pools, Iers en Grieks) bezetten de smalle zone op de “westelijke” uiterste van de pc plot, terwijl de populaties aanwezig in onze studie, in het bijzonder Noord-Aziatische, Kaukasus en West-Siberië zijn uitgesproken verschillend van West-Europeanen en van elkaar. Zo werden alle downstreamanalyses uitgevoerd voor elke regionale dataset en voor de gepoolde dataset.

Fig. 1
figure1

de bestudeerde populaties. Panel a: de kaart van de bestudeerde populaties. Aantallen op de kaart hebben betrekking op de volgende bestudeerde populaties: 1 – Chuvashes, 2 – Komi Permyaks, 3 – Komi Zyrians, 4 – Mari Weide, 5 – Mari Berg, 6 – Mordvins Erzya, 7 – Mordvins Moksha, 8 – Russen, 9 – Russen Nekrasov de Cossacs, 10 – Russen van Nizhny Novgorod in de regio, 11 – Russen van de regio Tver, 12 – Russen van Yaroslavlsky regio, 13 – Udmurts, 14 – Volga Tataren, 15 – Adyghe, 16 – Avaren, 17 – Azeri, 18 – Dargins, 19 – Kabardinians, 20 – Karachays, 21 – Kumyks, 22 – Lezgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, 27 – Meskhetian Turken, 28 – Bashkirs, 29 – Bos Nenets, 30 – Khanty, 31 – Mansi, 32 – Shors, 33 – Siberische Tataren, 34-Burjats, 35 – Tsjoektsjis, 36 – Dungans, 37 – Evenks van het Verre Oosten, 38 – Evens van Kamtsjatka, 39 – Evens van de kust van Okhotsk, 40 – Kazachs, 41 – Kirgizisch, 42 – Koryaks, 43 – Nanais, 44 – Tadjiks, 45 – Turkmenen, 46 – Oeigoeren, 47 – Oezbeken, 48-Yakuts van het Verre Oosten. Panel b: de belangrijkste componenten plot voor deze studiepopulaties en voor de populaties gebruikt voor de ontwikkeling/validatie van HIris-plex-S. HIris-plex populaties zijn zwart. De kleuren verwijst naar de regionale datasets aanwezig op het Paneel Een

DNA-monsters van deze 300 personen werden gesequenced met behulp van de speciaal ontworpen exome vastleggen die, naast de standaard Roche exome vastleggen, de intronic en intergenic regio ‘ s bekend te dragen pigmentatie-gerelateerde polymorfe sites (zie Methoden voor details).

de gecombineerde dataset omvatte fenotypische oproepen en genotypische oproepen voor alle individuen. Fenotypische oproepen omvatten vijf categorieën van het haar duisternis, drie categorieën van het haar roodheid, en vijf categorieën van het oog duisternis. Genotypische oproepen omvatten genotypes van alle polymorfe plaatsen die binnen de 53 genen en intergenic gebieden worden geà dentificeerd om bij oog/haarpigmentatie worden betrokken. De downstream analyses werden uitgevoerd op de subsets van deze gecombineerde dataset.

valideren van de precisie van HIrisPlex op Noord-Euraziatische populaties

We zijn begonnen met het schatten van de precisie van het standaard oog/haar voorspellingssysteem in de nieuw fenotypeerde populaties. Uit de gecombineerde dataset extraheerden we de fenotypische en genotypische oproepen voor 24 SNP ‘ s opgenomen in de HIrisPlex-S. vervolgens voorspelden we de oog-en haarkleur van genotypen met behulp van de online hirisplex-s tool en vergeleken we de voorspelde fenotypen met de echte fenotypen (Tabel 1). Tabel 2 toont de resultaten voor de oogkleurvoorspelling in verschillende metapopulaties (met uitzondering van Noord-Azië waar de frequentie van lichte ogen laag is). We vonden (Tabel 1, aanvullend bestand 1) dat de AUC-waarde in de gepoolde Noord-Euraziatische dataset slechts iets lager is dan in de West/Midden-Europeanen (vooral voor het bruine en rode haar). Echter, toen we de resultaten voor elke regio afzonderlijk analyseerden (Tabel 2), vonden we dat de prestaties van HIrisPlex-s panel Voor het voorspellen van oogkleur lager is voor individuen uit de Kaukasus regio (AUC waarden zijn 0,83 en 0,78, voor blauwe en donkere ogen). Vooral de recall voor blauwe ogen in de Kaukasus is aanzienlijk lager in vergelijking met de andere Noord – Euraziatische regio ‘ s-slechts 47% (aanvullend dossier 2). Het zou erop kunnen wijzen dat genen van de pigmentatie metabole routes in de Kaukasuspopulaties allelspectrum dragen dat enigszins verschilt van dat in Europa. Bij het partitioneren van de dataset volgens de fenotypische klasse (Tabel 1 en Tabel 2) vonden we dat het voorspellen van de beide, blauwe en bruine ogen in de Russische bevolking veel minder effectief is. Met name de hirisplex-S systemen hebben de neiging om blauwe ogen verkeerd te classificeren als bruin.

Tabel 1 zijn De AUC en de nauwkeurigheid van de kleur van het oog voorspelling met behulp van HirisPlex-S-systeem en Noord-Euraziatische set van SNPs voor de gecombineerde Noord-Euraziatische dataset
Tabel 2 De AUC en de nauwkeurigheid van de kleur van het oog voorspelling met behulp van HirisPlex-S set van SNPs voor de regionale Noord-Euraziatische datasets

Oog-en haarkleur voorspelling in noord-Europees-aziatische bevolkingsgroepen: op zoek naar nieuwe informatieve allelen. De algemene workflow

onze genetische gegevens over de fenotypeerde individuen omvatten de volledige sequencing van de pigmentatie-geassocieerde genen en relevante intergene regio ’s in plaats van alleen voorheen bekende SNP’ s. Zo waren we mogelijk in staat om de nieuwe informatieve allelen in de bekende genen te onthullen. In totaal belden we 117.012 SNPs in de 53 genen en intergene regio ‘ s.

voor oogkleurvoorspelling hebben we algoritmen voor functieselectie uitgevoerd om nieuwe informatieve allelen voor Noord-Euraziatische populaties te verkrijgen voor 4 datasets:

  1. gepoolde Noord-Euraziatische dataset

  2. Europees Rusland

  3. Kaukasus

  4. West-Siberië

voor haarkleurprognoses hebben we 5 datasets gebruikt:

  1. gepoolde Noord-Euraziatische dataset

  2. Europees Rusland

  3. Kaukasus

  4. West-Siberië

  5. Noord-Azië

Noord-aziatische dataset werd alleen geanalyseerd voor haarkleurvoorspelling vanwege het feit dat er voor dit gebied een waargenomen variatie in haarkleur is, terwijl voor oogkleur er geen dergelijke variatie is.

elke dataset is verdeeld in 60: 40-verhouding in opleidings-en testmonsters, waarbij het percentage monsters voor elke klasse behouden blijft. Voor de gepoolde dataset controleerden we dat monsters uit verschillende regio ‘ s die in de gepoolde dataset waren opgenomen in dezelfde verhouding (60:40) werden gesplitst om regiogerelateerde bias te voorkomen.

Er is een selectieprocedure uitgevoerd op de trainingsdataset (figuur S2). Functie selectieprocedure bestond uit het toepassen van drie algoritmen:

  1. 1)

    f_regressie

  2. 2)

    mutual_info_regressie

  3. 3)

    Lasso-functieselectie met verschillende Alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)

bij het analyseren van de verdeling van F-score (uit f_regressie) en MI (uit mutual_info_regressie) werden de drempels voor de meest effectieve functies met de hoogste scores voor elke dataset afzonderlijk ingesteld. Bij het uitvoeren van de lasso-functieselectie hebben we verschillende keuzes van de alpha-parameter getest. Voor elke waarde van Alfa berekenden we R2-scores op trainingsdataset voor overeenkomstige subset van SNP ‘ s die niet-nulcoëfficiënten hebben.

uit deze subsets hebben we de belangrijkste geselecteerd op basis van de verkregen R2-scores voor elke afzonderlijke dataset.

Op basis van resultaten van drie algoritmen van functieselectie werden alle geselecteerde SNP ‘ s gecombineerd in de bovenste SNP-lijsten voor elke dataset.

in elke bovenste SNPs-lijst hebben we SNPs geselecteerd die de beste voorspellende kracht hebben. Deze SNPs vormden de beste SNPs lijsten die we gebruikten om een classifier te bouwen. Om de beste SNPs te selecteren, gebruikten we dezelfde schaal als HIrisPlex-s classificator:

  1. blauw, gemiddeld en bruin voor oogkleur

  2. Rood, blond, Bruin en donker voor haarkleur

we beschouwden deze klassen onafhankelijk van elkaar en probeerden de classifier te bouwen met de beste kracht en de kleinste SNPs-set.

We gebruikten afzonderlijke ranking systemen voor de voorspelling van de oog-en haarkleur om het belang en de voorspellingskracht van elke SNP in te schatten om de SNPs lijsten te beperken.

de prestaties van de best geselecteerde functies werden gevalideerd op de testgegevensreeks. Om de kwaliteit van het model te evalueren berekenden we de R2-score (determinatiecoëfficiënt regressiescore functie) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), AUC-score, precisie, recall en nauwkeurigheid.

Oogkleurvoorspelling

Identificatie van de bovenste SNP ’s in de gepoolde Noord-Euraziatische dataset

om de bovenste SNP’ s te identificeren die geassocieerd zijn met de oogkleur in onze steekproef hebben we drie algoritmen toegepast: f_regression (F score), mutual_info_regression (MI) en Lasso feature selection met verschillende Alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).

we analyseerden F (f_regression) en MI (mutual_info_regression) scores distributies over de samples en selecteerden de top 30 SNPs met de hoogste scores.

volgens de resultaten van de lasso-functieselectie hebben we besloten om in de bovenste SNPs – lijst de meest cruciale op te nemen-degenen met niet-nulcoëfficiënten voor alpha = 0,5 (2 SNPs voor ‘eye color’ – dataset en 2 SNPs voor ‘hair color’ – dataset) en alpha = 0.2 (8 SNPs voor’ eye color ‘dataset en 8 SNPs voor’ hair color ‘dataset) – deze SNP’ s dragen de meeste voorspellingskracht volgens R2-scorewaarden verdeling over verschillende Alfas. We hebben ook SNP sets opgenomen voor Alpha ‘ s 0.1, 0.01 en 0.005.

de laatste top SNPs lijst bestond uit 256 SNPs (extra bestand 3).

het verkleinen van de lijst van SNP ‘ s en het bouwen van classifier voor oogkleur op basis van het

We toegewezen aan elke SNP een score van 0 tot 3. De score 3 wordt alleen toegekend voor SNP ’s uit de gepoolde dataset Top SNP’ s lijst omdat de resultaten die voor die dataset zijn gemaakt veel robuuster zijn dan voor regionale datasets (steekproefgroottes voor de regionale datasets zijn aanwezig in het aanvullende bestand 4). De score 3 wordt toegewezen aan SNP ‘ s die in de top 5 met de hoogste F score of hebben coëfficiënten meer of gelijk aan 0,1 in absolute waarde in Lasso modellen voor alpha 0.2 of hebben niet-nul coëfficiënten in Lasso modellen voor alpha 0.5. Voor het samengevoegde monster wordt de score 2 toegekend aan SNP ‘ s die in de top 10 staan met de hoogste F-of MI-scores of die in het Lasso-model voor Alfa 0,2 niet-nulcoëfficiënten hebben. De score 1 wordt toegewezen aan SNP ‘ s die coëfficiënten groter of gelijk 0,1 in Lasso model voor alpha 0.005 hebben. Aan alle andere SNP ‘ s hebben we de score 0 toegewezen. Alle 36 SNPs met niet-nul scores vormden de beste SNPs lijst en werden gebruikt voor de classifier.

De Vijf SNP ‘ s hadden de hoogste score 3. Twee van hen waren bekende Oogkleur-veroorzakende SNPs (rs1129038 en rs12913832) terwijl de overige drie niet eerder zijn gemeld als krachtige Oogkleur voorspellende allelen.

variatie van de beste SNPs-lijst in geografische regio ‘s

de volledige analyse die is uitgevoerd voor de gepoolde Noord-Euraziatische dataset is herhaald voor de populaties uit de drie volgende regio’ s afzonderlijk: Europees Rusland, Kaukasus en West-Siberië. Voor regionale datasets werd de score 2 toegewezen aan SNP ‘ s die in de top 5 stonden met de hoogste F-en MI-scores of coëfficiënten van meer of gelijk aan 0 hadden.1 in absolute waarde in het Lasso-model voor Alfa 0,5 of niet-nulcoëfficiënten in het Lasso-model voor Alfa 0,7. De score 1 werd toegewezen aan SNP ‘ s die in de top 6 met de hoogste F en MI scores of hebben coëfficiënten niet-nul coëfficiënten in Lasso modellen voor alpha 0.7 en 0.5. Extra bestand 5 presenteert de resulterende beste SNPs sets voor alle drie de regio ‘ s. De regionale lijsten en de lijst van het verzamelmonster zijn in het aanvullende dossier 6 met elkaar vergeleken. In het algemeen is de set van beste SNP ’s stabiel in de regio’ s: de SNP ’s met de hoogste scores zijn opgenomen in de meeste lijsten, terwijl onder de andere SNP’ s zijn er beide, geïdentificeerd binnen elke regio en regio-specifieke. Verder onderzoek naar de aanvullende fenotypische monsters is noodzakelijk om de significantie van de regio-specifieke SNP ‘ s te repliceren.

de samengevoegde SNPs-lijst werd gerangschikt naar totale score (als som van alle scores voor 4 samples: Kaukasus, West-Siberië, Europees Rusland en gepoold) (aanvullend bestand 6). Top 7 SNP ’s hebben de hoogste totale score en kwamen voor in meer dan één dataset, wat een extra bevestiging is dat deze SNP’ s een sterk voorspellend vermogen hebben (Tabel 3). Twee van die SNP ’s (rs1129038 en rs12913832) zijn al opgenomen in HIrisPlex-s panel, terwijl andere vijf SNP’ s zijn nieuwe kandidaten voor oogkleur voorspellen in de Noord-Euraziatische populaties. We schatten de frequenties van deze vijf SNP ‘ s in Noord-Euraziatische populaties (aanvullend bestand 7). Elke SNP werd gedetecteerd met polymorfe frequenties in elke regionale populatie, dus deze SNP ‘ s zijn gemeenschappelijk in plaats van zeldzaam.

Table 3 The list of 36 best North Eurasian SNP ’s for eye color prediction

the north Eurasian SNP ’s set performance

we schatten de prestaties van de SNP’ s die het hoogste voorspellend vermogen in onze Noord Eurasian sample toonden. De minimale set bevatte 7 SNPs, waarvan er twee eerder in het HIrisPlex-s Paneel waren opgenomen. De optimale set omvatte 36 SNPs die de hoogste scores op de gepoolde Noord-Euraziatische dataset ontvingen. We hebben de classificatieprestaties van beide sets van Noord-Euraziatische SNP ‘ s getest. Figuur 2 toont de ROC-curven en AUC-scores voor de voorspelling van drie oogkleuren. De nauwkeurigheid van 7 SNPs set is bijna net zo effectief als voorspelling op basis van de 41 HIrisPlex-s SNPs, terwijl de set van 36 Noord-Euraziatische SNPs iets beter presteert dan 41 HIrisPlex-s SNPs op ons monster (Fig. 2, Tabel 1).

Fig. 2
figure2

ROC-AUC curves voor oogkleurvoorspelling op Noord-Euraziatische dataset voor schaal met drie klassen. Paneel a: resultaten op de 7 SNPs set. Panel b: resultaten van de 36 SNPs

haarkleurvoorspelling

we hebben dezelfde functieselectie-analyse uitgevoerd om Top SNPs-lijst voor haarkleurvoorspelling te vinden en te evalueren voor gepoolde Noord-Euraziatische steekproef, die populaties uit de volgende regio ‘ s omvat: Kaukasus, Europees Rusland, West-Siberië en Noord-Azië.

we selecteerden top 322 SNP ’s en versmalden de lijst tot 33 beste SNP’ s met de sterkste prestaties voor 4-grade classificatie: Rood, blond, Bruin en donker haarkleur, dezelfde schaal als HIrisPlex-S (aanvullend bestand 8).

we hebben significantiescores toegewezen om de minimale set SNP ’s op de volgende manier te selecteren:

  1. 1)

    de score 3 is toegewezen aan SNP’ s die in top 5 staan met de hoogste F-of MI-scores of coëfficiënten hebben van meer dan 0,05 in absolute waarde in Lasso-modellen voor alpha 0.2 of niet-nulcoëfficiënten hebben in Lasso-modellen voor alpha 0.5

  2. 2)

    de score 2 is toegewezen aan SNP ’s in top 10 met de hoogste F-of MI-scores

  3. 3)

    de rest SNP’ s van de 33 beste SNP ’s lijst hebben de score 1

We konden de krachtigste 11 SNP’ s detecteren die de hoogste score hebben (3), drie daarvan zijn opgenomen in het hirisplex-s Paneel (rs16891982, rs12913832 en rs1129038).

we controleerden de prestaties van de classifier op basis van 11 SNPs set en probeerden het vermogen te schatten om onderscheid te maken tussen 4 onafhankelijke klassen (hetzelfde als voor HIrisPlex-S): Rood, blond, Bruin en donker haar (aanvullend bestand 9).

daarnaast hebben we geprobeerd om 2 klassen van Haarkleur – blond en bruin – samen te voegen omdat algoritme niet genoeg vermogen heeft om ze te onderscheiden, en hebben we de prestaties van geselecteerde SNPs gecontroleerd voor 3 grade schaal. Zoals we kunnen zien aan de resultaten (Fig. 3) de classifier prestaties aanzienlijk verbeterd voor beide sets van SNPs: de meest krachtige 11 SNPs en 33 beste SNPs.

Fig. 3
figure3

A. ROC-AUC curves for hair color prediction on North Eurasian data for the three-grades scale. Paneel a: resultaten op de 11 SNPs set. Paneel b: resultaten van de 33 SNPs set

de nieuwe potentieel informatieve SNPs

onze Analyse identificeerde vijf nieuwe SNPs die het hoge voorspellingsvermogen voor de oogkleur demonstreerden. Deze SNP ‘ s werden onthuld op de gepoolde Noord-Euraziatische steekproef en werden gerepliceerd op de meest regionale subsamples. Vier van deze SNPs bevinden zich in het HERC2-gen, en één (rs4812447) bevindt zich in de intergenetische regio. HERC2 (hect en RLD domein dat E3 Ubiquitin eiwit Ligase 2 bevat) gen behoort tot de Herc genfamilie die een groep ongewoon grote eiwitten codeert, die veelvoudige structurele domeinen bevatten. Genetische variaties in dit gen worden geassocieerd met huid/haar/oog pigmentatie variabiliteit .

beperkingen van de gebruikte benadering

we analyseerden de prestaties van de bekende pigmentatie voorspellende SNP ’s en zochten naar de nieuwe SNP’ s in voorheen niet-bestudeerde populaties uit verschillende geografische gebieden. Deze regionale aanpak maakte het mogelijk SNP ‘ s te identificeren die informatief zijn voor de specifieke populaties, maar maakte de steekproefgrootte van elke regio vrij beperkt. Daarom konden we onze steekproef niet onderverdelen in de trainingsdataset en de validatiedataset – dit zou resulteren in het reduceren van de steekproefgrootten tot aantallen die de statistisch significante analyse niet mogelijk maakten. Daarom dwong onze aanpak ons om dezelfde dataset te gebruiken voor SNPs-ontdekking, het bouwen van het Classificatiemodel, en ook voor de validatie, wat zou kunnen resulteren in voorspellende overschatting. Daarom moeten de prestaties van onze SNP ’s worden beschouwd als een bovenste schatting, en de geïdentificeerde SNP’ s als kandidaat degenen tot verificatie op de onafhankelijke steekproef in de toekomstige studies. Hoewel de stabiliteit van de bovenste Oogkleur voorspellende SNPs over geografische regio ‘ s deels controleert de effectiviteit van de nieuw geïdentificeerde voorspellende SNPs.

Related Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *