- kokoamalla aineiston
- Hirisplexin tarkkuuden validointi Pohjois-Euraasian populaatioissa
- silmien ja hiusten värin ennustaminen Pohjois-Euraasian populaatioissa: uusien informatiivisten alleelien etsiminen. Yleinen työnkulku
- silmien värin ennustaminen
- tunnistamalla Pohjois-Euraasian yhdistetyn aineiston Top SNP: t
- Kavennamme SNP: n ja silmien värin rakennusluokittelijan listaa sen perusteella
- parhaiden kansallisten tutkimusohjelmien luettelon vaihtelu maantieteellisillä alueilla
- Pohjois-Euraasian SNPs-sarjan suorituskyky
- Hiusväriennuste
- Uusi mahdollisesti informatiivinen SNPs
- käytetyn lähestymistavan rajoitukset
kokoamalla aineiston
fenotyypitimme 300 yksilöä 48 populaatiosta Venäjältä ja naapurimaista tunnistamalla heidän silmä-ja hiusvärinsä. Riippumaton kolmen asiantuntijan tekemä fenotyypitys ja valokuvien saatavuus tarkistamista varten tekivät fenotyypityksestä luotettavan ja toistettavan. Populaatiot ryhmiteltiin neljään alueelliseen aineistoon: Euroopan Venäjä, Länsi-Siperia, Kaukasus ja Pohjois-Aasia; Kuva. 1a esittää näytteenottopaikat ja ryhmittelyn alueellisiin aineistoihin. Alueellisilla metapopulaatioilla on vertaileva geneettinen tausta tutkittavan suuren alueen kanssa. Teimme PC-analyysin populaatioista, jotka sisältyvät tähän tutkimukseen havainnollistaaksemme näitä havaintoja (Kuva. 1b). Toteamme, että populaatiot, joihin HIris-plex-S on kehitetty ja validoitu (hollanti, puola, Irlanti, ja Kreikka) miehittää kapea vyöhyke ”Länsi” ääripäässä PC tontin, kun taas populaatiot läsnä tutkimuksessamme, erityisesti Pohjois-Aasian, Kaukasuksen ja Länsi-Siperian ovat voimakkaasti erilaisia länsieurooppalaisia ja toisistaan. Näin ollen kaikki loppupään analyysit tehtiin kunkin alueellisen aineiston ja yhdistetyn aineiston osalta.
DNA-näytteet näistä 300 yksilöstä sekvensoitiin käyttäen erityisesti suunniteltua exome-talteenottoa, joka sisälsi Roche exome-standardin lisäksi introniset ja intergeeniset alueet, joilla tiedetään olevan pigmentaatioon liittyviä polymorfisia paikkoja (KS.tarkemmat menetelmät).
yhdistetty aineisto sisälsi fenotyyppiset ja genotyyppiset puhelut kaikille henkilöille. Fenotyyppiset kutsut sisälsivät viisi hiusten tummuuden kategoriaa, kolme hiusten punaisuuden kategoriaa ja viisi silmän tummuuden kategoriaa. Genotyyppiset kutsut sisälsivät genotyypit kaikista polymorfisista paikoista, jotka tunnistettiin niissä 53 geenissä ja geenien välisellä alueella, joiden tiedetään osallistuvan silmien/hiusten pigmentointiin. Loppupään analyysit tehtiin tämän yhdistetyn aineiston osajoukoista.
Hirisplexin tarkkuuden validointi Pohjois-Euraasian populaatioissa
aloitimme arvioimalla standardisilmä / karva-ennustejärjestelmän tarkkuutta uusissa fenotyyppisissä populaatioissa. Yhdistetystä aineistosta poimimme hirisplex-S: ään sisältyvän 24 SNPs: n fenotyyppiset ja genotyyppiset pyynnöt.sitten ennustimme silmien ja hiusten värin genotyypeistä käyttämällä online HIrisPlex-s-työkalua ja vertasimme ennustettuja fenotyyppejä todellisiin fenotyyppeihin (Taulukko 1). Taulukossa 2 esitetään silmien värin ennustamisen tulokset eri metapopulaatioissa (lukuun ottamatta Pohjois-Aasiaa, jossa silmien valotiheys on alhainen). Havaitsimme (Taulukko 1, lisätiedosto 1), että AUC-arvo yhdistetyssä Pohjois-Euraasian aineistossa on vain hieman alhaisempi kuin Länsi – /keskieurooppalaisilla (erityisesti ruskeilla ja punaisilla hiuksilla). Kun kuitenkin analysoimme kunkin alueen tulokset erikseen (Taulukko 2), huomasimme, että Hirisplex-s-paneelin suorituskyky silmien värin ennustamisessa on heikompi Kaukasuksen alueen yksilöillä (AUC-arvot ovat 0, 83 ja 0, 78, sinisillä ja tummilla silmillä). Erityisesti sinisilmien takaisinveto Kaukasuksella on huomattavasti pienempi verrattuna muihin Pohjois-Euraasian alueisiin-vain 47% (Lisätiedosto 2). Se saattaa viitata siihen, että Kaukasuksen populaatioiden pigmenttiaineenvaihdunnan geeneissä on jonkin verran erilaista alleelikirjoa kuin Euroopassa. Kun aineisto jaetaan fenotyyppiluokan mukaan (taulukko 1 ja taulukko 2), havaitsimme, että molempien, sinisten ja ruskeiden silmien ennustaminen Venäjän väestössä on paljon tehottomampaa. Erityisesti HirisPlex-s-järjestelmät pyrkivät luokittelemaan siniset silmät väärin ruskeiksi.
silmien ja hiusten värin ennustaminen Pohjois-Euraasian populaatioissa: uusien informatiivisten alleelien etsiminen. Yleinen työnkulku
geenitietomme fenotyypitetyistä yksilöistä sisälsi pigmentaatioon liittyvien geenien ja asiaankuuluvien intergeenisten alueiden täyden sekvensoinnin aiemmin tunnettujen SNP: iden sijaan. Näin pystyimme mahdollisesti paljastamaan uudet informatiiviset alleelit tunnetuista geeneistä. Kaikkiaan kutsuimme 117 012 SNP: tä 53 geenissä ja geenien välisellä alueella.
silmien värin ennustamiseen suoritimme ominaisuuksien valinta-algoritmeja saadaksemme uusia informatiivisia alleeleja Pohjois-Euraasian populaatioille 4 tietokokonaisuutta varten:
yhdistetyt Pohjois-Euraasian aineistot
Euroopan Venäjä
Kaukasia
Länsi-Siperia
hiusvärien ennustamiseen käytettiin 5 aineistoa:
yhdistetyt Pohjois-Euraasian aineistot
li>
Euroopan Venäjä
Kaukasia
Länsi-Siperia
Pohjois-Aasia
Pohjois-aasian aineisto analysoitiin vain hiusten värin ennustamista varten, koska tällä alueella on havaittu hiusten värin vaihtelua, kun taas silmien värin osalta tällaista vaihtelua ei ole.
jokainen aineisto on jaettu suhteessa 60:40 koulutus-ja koenäytteisiin siten, että kunkin luokan näytteiden prosenttiosuus säilyy ennallaan. Yhdistetyn aineiston osalta valvoimme, että eri alueilta kerätyt näytteet jaettiin samassa suhteessa (60:40) alueharhojen välttämiseksi.
ominaisuuksien valintamenettely on suoritettu koulutusaineistossa (Kuva S2). Ominaisuuksien valintamenettely koostui kolmen algoritmin soveltamisesta:
- 1)
f_regressio
- 2)
mutual_info_regressio
- 3)
Lasso-ominaisuusvalinta eri alfoilla (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
analysoitaessa F-pisteiden jakaumaa (f_regressiosta) ja MI (mutual_info_regressiosta) raja-arvot tehokkaimmille ominaisuuksille, joilla on korkeimmat pisteet, asetettiin kullekin aineistolle erikseen. Lasso-ominaisuusvalintaa tehdessämme testasimme alfa-parametrin eri valintoja. Kullekin alfa-arvolle laskimme R2-pisteet koulutusaineistosta vastaaville SNP – osajoukoille, joilla on ei-nollakertoimet.
näistä osajoukoista valitsimme tärkeimmät kullekin aineistolle erikseen saatujen R2-pisteiden perusteella.
kolmen ominaisuusvalinnan algoritmien tulosten perusteella kaikki valitut SNP: t yhdistettiin kunkin tietojoukon top SNPs-listoissa.
jokaisesta Top SNPs-listasta valitsimme SNP: t, joilla on paras ennustevoima. Nämä SNP: t muodostivat parhaat SNPs-listat, joita käytimme luokittajan rakentamiseen. Parhaan SNP: n valinnassa käytimme samaa asteikkoa kuin HIrisPlex-s luokittelija:
sininen, väli-ja ruskea silmien värille
punainen, vaalea, ruskea ja tumma hiusvärille
katsoimme nämä luokat toisistaan riippumattomiksi ja yritimme rakentaa luokittajan, jolla on paras teho ja pienin SNP-joukko.
käytimme erillisiä pisteytysjärjestelmiä silmien ja hiusten värin ennustamiseen arvioidaksemme kunkin SNP: n tärkeyttä ja ennustusvoimaa, jotta SNP: n listoja voitiin kaventaa.
parhaiden valittujen ominaisuuksien suorituskyky vahvistettiin testiaineistossa. Mallin laadun arvioimiseksi laskimme R2-pisteet (determinaatioregression score-funktio) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), AUC-pisteet, tarkkuus -, takaisinkutsu-ja tarkkuusmittarit.
silmien värin ennustaminen
tunnistamalla Pohjois-Euraasian yhdistetyn aineiston Top SNP: t
tunnistaaksemme otoksessamme silmien väriin liittyvät Top SNP: t sovellimme kolmea algoritmia: f_regressio (F score), mutual_info_regressio (MI) ja Lasso-ominaisuuden valinta eri alfoilla (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
analysoimme F (f_regression) ja MI (mutual_info_regression) pistejaot eri näytteistä ja valitsimme 30 parasta SNP: tä, joilla oli parhaat pisteet.
Lasso – ominaisuusvalinnan tulosten perusteella päätimme sisällyttää top SNPs-luetteloon kaikkein ratkaisevimmat-ne, joissa ei ole nollakertoimia alpha = 0.5: lle (2 SNPs ”eye color” – aineistolle ja 2 SNP ”hair color” – aineistolle) ja alpha = 0: lle.2 (8 SNPs ”eye color” – aineistossa ja 8 SNPs ”hair color” – aineistossa) – näillä SNP: llä on eniten ennustetehoa R2-pistearvojen jakautumisen mukaan eri alfoille. Mukana oli myös SNP-sarjoja alfoille 0.1, 0.01 ja 0.005.
lopullinen top SNPs-lista koostui 256 SNPs: stä (ylimääräinen tiedosto 3).
Kavennamme SNP: n ja silmien värin rakennusluokittelijan listaa sen perusteella
annoimme jokaiselle SNP: lle Pisteet 0: sta 3: een. Pisteet 3 on annettu vain kansallisille Tietokokonaisuuksille yhdistettyjen kansallisten tietokokonaisuuksien top SNPs-luettelosta, koska tulokset, jotka on tehty, ovat paljon vankempia kuin alueellisten tietokokonaisuuksien (alueellisten tietokokojen otoskoot ovat Lisätiedostossa 4). Pisteet 3 annetaan SNP: ille, jotka ovat top 5: ssä ja joilla on korkein F-pistemäärä tai joiden itseisarvo on enemmän tai yhtä suuri kuin 0,1 lassomalleissa alpha 0,2: lle tai joilla on ei-nollakertoimet lassomalleissa alpha 0,5: lle. Yhdistetyssä näytteessä pisteet 2 annetaan SNP: ille, jotka ovat top 10: ssä korkeimmilla F-tai MI-pisteillä tai joilla on ei-nollakertoimet Lasso-mallissa alpha 0.2: lle. Pisteet 1 annetaan SNP: lle, jonka Lasso-mallissa kerroin on suurempi tai yhtä suuri 0,1 Alpha 0,005: lle. Kaikille muille SNP: lle annoimme Pisteet 0. Kaikki 36 SNP: tä, joilla ei ollut nollatuloksia, muodostivat parhaan SNPs: n listan ja niitä käytettiin luokittelijaan.
viiden SNP: n korkein pistemäärä oli 3. Kaksi niistä oli tunnettuja silmien väriä aiheuttavia SNP: Itä (rs1129038 ja rs12913832), kun taas loput kolme ei ole aiemmin raportoitu voimakkaina silmien väriä ennakoivina alleeleina.
parhaiden kansallisten tutkimusohjelmien luettelon vaihtelu maantieteellisillä alueilla
koko Pohjois-Euraasian yhdistetyn aineiston analyysi on toistettu seuraavien kolmen alueen populaatioiden osalta erikseen: Euroopan Venäjä, Kaukasus ja Länsi-Siperia. Alueellisissa aineistoissa pisteet 2 annettiin SNP: lle, jotka olivat top 5: ssä korkeimmilla F-ja MI-tuloksilla tai joiden kertoimet olivat enemmän tai yhtä suuret kuin 0.1 itseisarvona lassomallissa alpha 0,5: lle tai ei-nollakertoimena lassomallissa alpha 0,7: lle. Pisteet 1 annettiin SNP: lle, jotka olivat top 6: ssa korkeimmilla F-ja MI-tuloksilla tai joilla on Lasso-malleissa ei-nollakertoimet alpha 0,7: lle ja 0,5: lle. Lisätiedosto 5 esittelee tuloksena parhaat SNPs-sarjat kaikille kolmelle alueelle. Alueellisten luetteloiden ja yhdistetyn otoksen luettelon vertailu esitetään lisätiedostossa 6. Yleisesti ottaen parhaiden kansallisten parlamenttien joukko on vakaa eri alueilla. : eniten pisteitä saaneet SNP: t ovat luetuimpien joukossa, kun taas muiden SNP: iden joukossa on molempia, jotka on yksilöity jokaisella alueella ja aluekohtaisesti. Lisäfenotyypitettyjen näytteiden lisätutkimus on tarpeen, jotta voidaan toistaa aluekohtaisten SNP: iden merkitys.
yhdistetyn SNPs: n lista sijoittui kokonaispisteiden mukaan (kaikkien neljän näytteen pisteytysten summa: Kaukasia, Länsi-Siperia, Euroopan Venäjä ja yhdistetty) (Lisätiedosto 6). Top 7 SNP: llä on korkein kokonaispistemäärä, ja se tapahtui useammassa kuin yhdessä aineistossa, mikä on lisävahvistus siitä, että näillä SNP: llä on vahva ennustevoima (Taulukko 3). Kaksi näistä SNP :stä (rs1129038 ja rs12913832) on jo mukana HIrisPlex-s-paneelissa, kun taas viisi muuta SNP: tä ovat uusia ehdokkaita silmien värin ennustamiseen Pohjois-Euraasian populaatioissa. Arvioimme näiden viiden SNP: n esiintymistiheydet Pohjois-Euraasian populaatioissa (Lisätiedosto 7). Jokaisella SNP: llä havaittiin polymorfisia frekvenssejä jokaisella alueellisella väestöllä, joten nämä SNP: t ovat pikemminkin yleisiä kuin harvinaisia.
Pohjois-Euraasian SNPs-sarjan suorituskyky
arvioimme niiden SNP: iden suorituskyvyn, jotka osoittivat suurimman ennustevoiman Pohjois-euraasialainen näytteemme. Minimijoukko sisälsi 7 SNP: tä, joista kaksi oli aiemmin sisällytetty HIrisPlex-s-paneeliin. Optimaalinen sarja sisälsi 36 SNP: tä, jotka saivat parhaat pisteet yhdistetyssä Pohjois-Euraasian aineistossa. Testasimme molempien Pohjois-Euraasian SNP-sarjojen luokituskykyä. Kuvassa 2 esitetään ROC-käyrät ja AUC-arvot kolmen silmän värin ennustamiseksi. Tarkkuus 7 SNPs asettaa on lähes yhtä tehokas kuin ennuste perustuu 41 HIrisPlex-s SNPs, kun taas joukko 36 Pohjois-Euraasian SNPs hieman päihittää 41 HIrisPlex-s SNPs meidän näyte (kuva. 2, taulukko 1).
Hiusväriennuste
teimme saman ominaisuusanalyysin löytääksemme ja arvioidaksemme Top SNPs-listan hiusväriennustetta varten yhdistetylle Pohjois-Euraasian otokselle, joka sisältää populaatioita seuraavilta alueilta: Kaukasus, Euroopan Venäjä, Länsi-Siperia ja Pohjois-Aasia.
valitsimme 322 parasta SNP: tä ja rajasimme listan 33 parhaaseen SNP: hen, joilla on vahvin suorituskyky 4-luokan luokituksessa: punainen, vaalea, ruskea ja tumma hiusten väri, sama asteikko kuin HIrisPlex-s (Lisätiedosto 8).
annoimme merkitsevyyspisteet valitaksemme SNP: n vähimmäisjoukon seuraavalla tavalla:
- 1)
pisteet 3 on annettu SNP: lle, jotka ovat top 5: ssä korkeimmilla F-tai MI-pisteillä tai joiden itseisarvo on yli 0,05 lassomalleissa alpha 0,2: lle tai joilla on ei-nollakertoimet lassomalleissa alpha 0: lle.5
- 2)
pisteet 2 on annettu SNPs: lle top 10: ssä korkeimmat F tai MI-pisteet
- 3)
loput SNP: T 33 parhaasta SNPs-listasta ovat pisteet 1
pystyimme havaitsemaan tehokkaimmat 11 SNP: tä, joilla on korkein pistemäärä (3), kolme niistä on mukana HIrisPlex-s-paneelissa (rs16891982, rs12913832 ja rs1129038).
tarkistimme luokittajan suorituskyvyn 11 SNPs-sarjan perusteella ja yritimme arvioida sen kykyä erottaa toisistaan 4 itsenäistä luokkaa (sama kuin HIrisPlex-S: llä): Punaiset, Vaaleat, ruskeat ja tummat hiukset (Lisätiedosto 9).
lisäksi yritimme yhdistää 2 hiusväriluokkaa – vaalean ja ruskean – koska algoritmin teho ei riitä erottamaan niitä toisistaan, ja tarkistimme valittujen SNP: iden suorituskyvyn 3 luokan asteikolla. Kuten voimme nähdä tuloksista (Kuva. 3) luokittajan suorituskyky parani merkittävästi molemmissa snps-sarjoissa: tehokkain 11 SNPs ja 33 paras SNPs.
Uusi mahdollisesti informatiivinen SNPs
analyysimme tunnisti viisi uutta SNP: tä, jotka osoittivat silmien värin suuren ennustustehon. Nämä SNP: t paljastettiin Pohjois-Euraasian yhdistetystä näytteestä ja toistettiin kaikkein alueellisimmista osanäytteistä. Näistä SNP: stä neljä sijaitsee HERC2-geenissä ja yksi (rs4812447) intergeenisellä alueella. HERC2-geeni (HECT-ja RLD-domeeni, joka sisältää E3 Ubikitiiniproteiiniligaasi 2) kuuluu HERC-geeniperheeseen, joka koodaa ryhmän epätavallisen suuria proteiineja, jotka sisältävät useita rakenteellisia domeeneja. Tämän geenin geneettiset vaihtelut liittyvät ihon / hiusten / silmien pigmenttivaihteluun .
käytetyn lähestymistavan rajoitukset
analysoimme tunnetun pigmentaatiota ennakoivan SNPs: n suorituskyvyn ja etsimme uusia SNPs: iä aiemmin tutkimattomista populaatioista eri maantieteellisillä alueilla. Tämän aluepohjaisen lähestymistavan avulla voitiin yksilöidä kansallisille turvallisuusviranomaisille tiedotettavia tietoja, mutta kunkin alueen otoskoot olivat melko rajalliset. Siksi emme pystyneet jakamaan otostamme koulutustietokantaan ja validointitietokantaan – tämä johtaisi otoskokojen pienentämiseen numeroihin, mikä ei mahdollistaisi tilastollisesti merkittävää analyysiä. Siksi lähestymistapamme pakotti meidät käyttämään samaa tietokokonaisuutta SNPs: n löytämiseen, luokittelumallin rakentamiseen ja myös validointiin, mikä saattaa johtaa ennusteiden yliarviointiin. Sen vuoksi kansallisen Kasvinsuojeluaineistomme suorituskykyä olisi pidettävä ylempänä arviona ja yksilöityjä kansallisia Kasvinsuojeluaineistoja ehdokkaina, kunnes riippumaton otos todennetaan tulevissa tutkimuksissa. Vaikka Top eye väri ennustava SNPs eri maantieteellisillä alueilla osittain vahvistaa tehokkuutta äskettäin tunnistettu ennakoiva SNPs.