a vizsgált populációk. A. Panel: a vizsgált populációk térképe. A térképen szereplő számok a következő vizsgált populációkra utalnak: 1 – Chuvashes, 2 – Komi Permyaks, 3 – Komi Zürjének, 4 – Mari Rét, 5 – Mari-Hegy, 6 – Mordvins Erzya, 7 – Mordvins Moksha, 8 – Oroszok, 9 – Oroszok Nyekraszov ez a Kozákok, 10 – Oroszok Nyizsnyij Novgorod régióban, 11 – Oroszok a Tver régióban, 12 – Oroszok a Yaroslavlsky régió, 13 – Udmurts, 14 – Volga Tatárok, 15 – From, 16 – Avarok, 17 – Azeri, 18 – Dargins, 19 – Kabardinians, 20 – Karachays, 21 – Kumyks, 22 – Lezgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, 27 – Törökök Meskhetian, 28 – Bashkirs, 29 – Erdei Nyenyec, 30 – Hanti, 31 – Manysi, 32 – Shors, 33 – Szibériai Tatárok, 34 – Buryats, 35 – Chukchis, 36 – Dungans, 37 – távol – keleti Evenks, 38 – Kamchatka Evens, 39 – Okhotsk partja, 40 – Kazah, 41 – Kirgiz, 42 – Koryaks, 43 – Nanais, 44 – Tajiks, 45 – Turkmens, 46 – Ujgurs, 47-Uzbeks, 48-Yakuts Távol-Kelet. B. Panel: ennek a vizsgálati populációnak a fő összetevői, valamint a HIris-plex-ek kifejlesztéséhez/érvényesítéséhez használt populációk. A HIris-plex populációk fekete színűek. A színek az a
DNS-mintákat ebből a 300 egyedből a speciálisan tervezett exome capture segítségével szekvenálták, amely a standard Roche exome capture mellett magában foglalta a pigmentációval kapcsolatos polimorf helyek szállítására ismert intronikus és intergén régiókat is (a részleteket lásd a módszerekben).
a kombinált adatkészlet fenotípusos hívásokat és genotípusos hívásokat tartalmazott minden egyén számára. A fenotípusos hívások a haj sötétségének öt kategóriáját, a haj vörösségének három kategóriáját és a szem sötétségének öt kategóriáját tartalmazták. Genotípusos hívásokat tartalmazza genotípusok minden polimorf meghatározott területeken belül az 53 gének, illetve intergenic régiók ismert, hogy részt szem/haj pigmentálás. A downstream elemzéseket ennek a kombinált adatkészletnek a részhalmazain végezték.
A HIrisPlex pontosságának validálása az észak-Eurázsiai populációkban
elkezdtük megbecsülni a standard szem/haj predikciós rendszer pontosságát az újonnan fenotípusozott populációkban. A kombinált adatkészlet kivontuk a vizsgálatok, illetve genotípusos hívások 24 SNPs szerepel a HIrisPlex-S. Akkor megjósolta, a szem, a haj színe a genotípusok használja az online HIrisPlex-S eszköz, szemben a várható fenotípus az igazi fenotípus (1.Táblázat). A 2. táblázat bemutatja a szemszín-előrejelzés eredményeit különböző metapopulációkban (kivéve Észak-Ázsiát, ahol a könnyű szemek gyakorisága alacsony). Megállapítottuk (1.táblázat, 1. kiegészítő Fájl), hogy az összevont Észak-Eurázsiai adatkészletben az AUC-érték csak kissé alacsonyabb, mint a Nyugat-Közép-európaiaknál (különösen a barna és vörös haj esetében). Amikor azonban elemeztük az eredményeket minden régióban külön-külön (2. Táblázat), azt találtuk, hogy a teljesítményét HIrisPlex-S panel előre szeme színe alacsonyabb, az egyének, a Kaukázusi régió (AUC értékek 0.83, valamint 0.78, a kék, sötét szemek). Különösen a kaukázusi kék szemek visszahívása jelentősen alacsonyabb a többi Észak-Eurázsiai régióhoz képest – csak 47% (2.Kiegészítő fájl). Ez arra utalhat, hogy a kaukázusi populációk pigmentációs metabolikus útjainak génjei az allél spektrumát némileg különböztetik meg az európaiaktól. Az adatkészlet fenotípusos osztály szerinti felosztásakor (1.táblázat és 2. táblázat) azt találtuk, hogy az orosz népesség mindkét, kék és barna szemének előrejelzése sokkal kevésbé hatékony. Különösen a HirisPlex-s rendszerek hajlamosak a kék szemeket barnának minősíteni.
1.táblázat a szemszín-előrejelzés AUC-értéke és pontossága HirisPlex-s rendszer és Észak-Eurázsiai SNP-készlet felhasználásával az összevont Észak-Eurázsiai adatkészlethez
2. táblázat a szemszín-előrejelzés AUC-értéke és pontossága hirisplex-s SNP-k segítségével a regionális Észak-Eurázsiai adatkészletekhez
szem-és hajszín-előrejelzés Észak-eurázsiai populációkban: új informatív allélok keresése. Az általános munkafolyamat
A genetikai adatok a phenotyped egyének tartalmazza a teljes sorozatot, a pigmentáció kapcsolódó gének, illetve a vonatkozó intergenic régiók sokkal inkább, mint korábban ismert SNPs csak. Így potenciálisan képesek voltunk felfedni az új informatív allélokat az ismert génekben. Összesen 117 012 SNP-t hívtunk az 53 génben és az intergén régiókban.
a szemszín-előrejelzéshez funkcióválasztó algoritmusokat végeztünk annak érdekében, hogy új informatív allélokat kapjunk az Észak-Eurázsiai populációk számára 4 adatkészlethez:
Egyesített Észak-Eurázsiai adatkészlet
az Európai Oroszország
Kaukázusi
Nyugat-Szibériában
A haj színe jóslat használtuk 5 adatok:
Egyesített Észak-Eurázsiai adatkészlet
az Európai Oroszország
Kaukázusi
Nyugat-Szibériában
Észak-Ázsia
Észak-Ázsiai adatkészlet volt, elemezni, csak a haja színe jóslat miatt a tény miatt, ebben a régióban van egy megfigyelt eltérés a haja színe, míg a szem színe, nincs olyan variáció.
minden adathalmaz 60: 40 arányban lett felosztva képzési és vizsgálati mintákra, megőrizve a minták százalékos arányát minden osztály esetében. Az összevont adatkészlethez ellenőriztük, hogy az összevont adatkészletben szereplő különböző régiókból származó mintákat azonos arányban (60:40) osztjuk meg, hogy elkerüljük a régióval kapcsolatos elfogultságot.
A funkcióválasztási eljárást a képzési adatkészleten (S2 ábra) hajtották végre. A funkciókiválasztási eljárás három algoritmus alkalmazásából állt:
1) f_regression
2) mutual_info_regression
3) Lasszó funkció kiválasztása a különböző alfák (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
elemezve, hogy az eloszlás F pontszám (a f_regression) de MI (a mutual_info_regression) a küszöbértékeket a leghatékonyabb jellemzők a legmagasabb pontszámot is be minden adatkészlet külön-külön. A Lasso funkció kiválasztása során az alpha paraméter különböző választási lehetőségeit teszteltük. Az alpha minden értékére kiszámítottuk az R2 pontszámokat a képzési adatkészleten az SNP-k megfelelő részhalmazára, amelyek nem nulla együtthatóval rendelkeznek.
Ezen részhalmazok közül a legfontosabbakat választottuk ki a kapott R2 pontszámok szerint minden egyes adathalmazhoz külön-külön.
a funkcióválasztás három algoritmusának eredményei alapján az összes kiválasztott SNP-t egyesítették az egyes adatkészletek felső SNPs listáiban.
minden felső SNPs listában kiválasztottuk az SNP – ket, amelyek a legjobb prediktív erővel rendelkeznek. Ezek az SNP-k a legjobb SNP-listákat alkották, amelyeket egy osztályozó felépítéséhez használtunk. A legjobb SNP-k kiválasztásához ugyanazt a skálát használtuk, mint a HIrisPlex-s osztályozó:
kék, köztes és barna a szemszín
vörös, szőke, barna és sötét a hajszín
ezeket az osztályokat egymástól függetlennek tekintettük, és megpróbáltuk az osztályozót a legjobb erővel és a legkisebb SNP-készlettel felépíteni.
külön rangsorolási rendszereket használtunk a szem – és hajszín-előrejelzéshez, hogy megbecsüljük az egyes SNP-k fontosságát és előrejelzési erejét az SNP-listák szűkítése érdekében.
a legjobb kiválasztott funkciók teljesítményét a tesztadatkészleten validálták. A modell minőségének értékeléséhez kiszámítottuk az R2 pontszámot (a regressziós pontszám függvény meghatározási együtthatója) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), az AUC pontszámot, a pontosságot, a visszahívást és a pontossági mutatókat.
szemszín-előrejelzés
A felső SNP-k azonosítása az összevont Észak-Eurázsiai adatkészletben
a minta szemszínéhez kapcsolódó felső SNP-k azonosításához három algoritmust alkalmaztunk: f_regression( F pontszám), mutual_info_regession (MI), valamint Lasso funkció kiválasztása különböző alfákkal (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
elemeztük az F (f_regression) és MI (mutual_info_regression) ponteloszlásokat a mintákon, és kiválasztottuk a legjobb 30 SNP-t a legmagasabb pontszámokkal.
Szerint az eredmények a Lasszó funkció kiválasztása úgy döntöttünk, hogy tartalmazza a felső SNPs lista a legfontosabbak – az is, hogy a nem nulla együtthatók az alfa = 0.5 (2 SNPs a ‘szem szín’ adatkészlet 2 SNPs a haja színe adatkészlet) alfa = 0.2 (8 SNPs a ‘szem szín’ adatkészlet 8 SNPs a haja színe adatkészlet) – ezek a SNPs hordozzák a legtöbb jóslat ereje szerint r2 pontszám értékek terjesztéséhez különböző alfák. A 0.1, 0.01 és 0.005 Alfák SNP készleteit is tartalmaztuk.
a végső felső SNPs lista 256 SNPs-ből állt (további 3.Fájl).
az SNP-k listájának szűkítése és a szemszín osztályozója alapján
minden SNP-hez 0-tól 3-ig terjedő pontszámot rendeltünk. A score 3 csak az összevont adatkészlet Top SNPs listájából származó SNP-khez van hozzárendelve, mivel az adott adatkészlet eredményei sokkal robusztusabbak, mint a regionális adatkészletek esetében (a regionális adatkészletek mintaméretei a kiegészítő fájlban vannak jelen 4). A pontszám 3 rendelt SNPs, hogy a top 5 a legmagasabb F pontszám, vagy együtthatók nagyobb vagy egyenlő, mint 0, 1 abszolút érték Lasszó modellek, alfa-0.2, vagy nem nulla együtthatók a Lasszó modellek, alfa-0.5. Az egyesített minta a pontszám 2 rendelt SNPs, hogy a top 10 a legmagasabb a F vagy a MI pontszámok, vagy nem nulla együtthatók a Lasszó modell alfa 0.2. Az 1 pontszámot olyan SNP-khez rendelik, amelyek az alfa 0.005 Lasso modellben 0.1-nél nagyobb vagy egyenlő együtthatókkal rendelkeznek. Az összes többi SNP-hez a 0 pontszámot kaptuk. Mind a 36 nem nulla pontszámmal rendelkező SNP a legjobb SNP-listát képezte, amelyet az osztályozóhoz használtak.
az öt SNP volt a legmagasabb pontszám 3. Ezek közül kettő jól ismert szemszínt okozó SNP (rs1129038 és rs12913832) volt, míg a fennmaradó háromról korábban nem számoltak be erős szemszín-előrejelző allélként.
A földrajzi régiók legjobb SNP-listájának variációja
az összevont Észak-Eurázsiai adatkészlet teljes elemzését megismételték a következő három régióból származó populációk esetében: Európai Oroszország, Kaukázus és Nyugat-Szibéria. A regionális adatkészletek esetében a 2-es pontszámot olyan SNP-khez rendelték, amelyek a legmagasabb F és MI pontszámokkal rendelkeztek, vagy 0-nál nagyobb vagy egyenlő együtthatókkal rendelkeztek.1 A Lasso modell abszolút értékében alpha 0.5 vagy nem nulla együtthatók a Lasso modellben az alpha 0.7 esetében. Az 1. pontszámot olyan SNP-khez rendelték, amelyek a legmagasabb F és MI pontszámokkal rendelkeztek, vagy az alfa 0.7 és 0.5 Lasso modellekben nem nulla együtthatókkal rendelkeznek. További file 5 bemutatja a kapott legjobb SNPs készletek mindhárom régióban. A regionális listák és az összevont minta listájának összehasonlítása a 6.Kiegészítő fájlban található. Általában véve a legjobb SNP-k készlete stabil az egész régióban: a legmagasabb pontszámmal rendelkező SNP-k szerepelnek a legtöbb listán,míg a többi SNP között mindkettő megtalálható, minden régióban és régióspecifikus. A régióspecifikus SNP-k jelentőségének megismétléséhez további vizsgálat szükséges a további fenotípusos mintákon.
az egyesített SNPs-listát összpontszám alapján rangsorolták (4 minta összes pontszámának összege: Kaukázus, Nyugat-Szibéria, európai Oroszország és összevont) (6.Kiegészítő fájl). A Top 7 SNP-k a legmagasabb összpontszámmal rendelkeznek, és egynél több adatkészletben is előfordultak, ami további megerősítést jelent, hogy ezek az SNP-k erős prediktív erővel rendelkeznek (3.táblázat). Az SNP-k közül kettő (rs1129038 és rs12913832) már szerepel a HIrisPlex-s panelen, míg további öt SNP új jelölt a szemszín előrejelzésére az Észak-Eurázsiai populációkban. Az Észak-Eurázsiai populációkban becsültük az öt SNP gyakoriságát (további 7.Fájl). Minden egyes SNP-t polimorf frekvenciákkal észleltek minden regionális populációban, így ezek az SNP-k inkább gyakoriak, mint ritkák.
3.táblázat a 36 legjobb Észak-Eurázsiai SNP listája a szemszín-előrejelzéshez
az észak-Eurázsiai SNP-k teljesítménye
az SNP-k teljesítményét becsültük meg, amelyek Északunkban a legmagasabb prediktív teljesítményt mutatták eurázsiai minta. A minimális készlet 7 SNP-t tartalmazott, amelyek közül kettő korábban bekerült a HIrisPlex-s panelbe. Az optimális készlet 36 SNP-t tartalmazott, amelyek a legmagasabb pontszámot kapták az összevont Észak-Eurázsiai adatkészleten. Teszteltük az észak-Eurázsiai SNP-k mindkét készletének osztályozási teljesítményét. A 2. ábra a ROC görbéket és AUC pontszámokat mutatja be a három szemszín előrejelzéséhez. A 7 SNPs készlet pontossága majdnem olyan hatékony, mint a 41 HIrisPlex-s SNP-n alapuló előrejelzés, míg az 36 Észak-Eurázsiai SNP-k halmaza kissé felülmúlja a 41 HIrisPlex-s SNP-ket a mintánkon (ábra. 2, 1. táblázat).
ábra. 2
ROC-AUC görbék a szemszín-előrejelzéshez az Észak-Eurázsiai adatkészleten három fokozatú skálán. A Panel: eredmények a 7 SNPs készleten. B Panel: a 36 SNP
hajszín-előrejelzés
ugyanazt a funkcióválasztási elemzést végeztük el, hogy megtaláljuk és értékeljük a hajszín-előrejelzést az összevont Észak-Eurázsiai mintára, amely a következő régiók populációit tartalmazza: Kaukázus, Európai Oroszország, Nyugat-Szibéria és Észak-Ázsia.
kiválasztottuk a legjobb 322 SNP-t, majd a listát 33 legjobb SNP-re szűkítettük, amelyek a legerősebb teljesítményt nyújtják a 4 fokozatú osztályozáshoz: vörös, szőke, barna és sötét hajszín, ugyanolyan léptékű, mint a HIrisPlex-S (További fájl 8).
Mi rendelt jelentősége pontszámokat, hogy válassza ki a minimális SNPs a következő módon:
1)
A pontszám 3 rendelt SNPs, hogy a top 5 a legmagasabb a F vagy a MI pontszámok, vagy együtthatók több, mint 0.05 abszolút érték Lasszó modellek, alfa-0.2, vagy nem nulla együtthatók a Lasszó modellek, alfa-0.5
2)
Az eredmény 2 rendelt SNPs a top 10 a legmagasabb a F vagy a MI eredmények
3) A többi SNPs a 33 legjobb SNPs lista a pontszám 1
tudtunk kimutatni a legerősebb 11 SNPs, hogy a legmagasabb pontszámot (3), hárman szerepelnek HIrisPlex-S panel (rs16891982, rs12913832, valamint rs1129038).
az osztályozó teljesítményét 11 SNPs készlet alapján ellenőriztük, és megpróbáltuk megbecsülni, hogy képes-e megkülönböztetni 4 független osztályt (ugyanaz, mint a HIrisPlex-S esetében): vörös, szőke, barna és sötét haj (további 9.fájl).
emellett megpróbáltuk egyesíteni a hajszín 2 osztályát – szőke és barna -, mert az algoritmusnak nincs elég ereje ahhoz, hogy megkülönböztesse őket, és ellenőriztük a kiválasztott SNP-k teljesítményét 3 fokozatú skálán. Amint azt az eredményekből láthatjuk (ábra. 3) az osztályozó teljesítménye jelentősen javult mindkét SNP-készlet esetében: a legerősebb 11 SNP és 33 legjobb SNP.
ábra. 3
A. ROC-AUC görbék a hajszín előrejelzéséhez az Észak-Eurázsiai adatkészleten a három fokozatú skálán. A Panel: eredmények a 11 SNPs készleten. B Panel: eredmények a 33 SNPs set
az új potenciálisan informatív SNP-k
elemzésünk öt új SNP-t azonosított, amelyek bizonyították a szem színének magas előrejelzési erejét. Ezeket az SNP-ket az összegyűjtött Észak-Eurázsiai mintán fedezték fel, és a legtöbb regionális alcsoporton replikálták. Négy ilyen SNP található HERC2 génben, egy (rs4812447) pedig az intergén régióban található. A HERC2 (E3 Ubiquitin Protein Ligase 2-t tartalmazó HECT és RLD Domain) gén a Herc géncsaládba tartozik, amely szokatlanul nagy fehérjék egy csoportját kódolja, amelyek több szerkezeti domént tartalmaznak. Ennek a génnek a genetikai variációi a bőr/haj/szem pigmentációs változékonyságához kapcsolódnak .
az alkalmazott megközelítés korlátai
elemeztük az ismert pigmentációs prediktív SNP-k teljesítményét, és az új SNP-ket kerestük a különböző földrajzi területekről származó, korábban nem vizsgált populációkban. Ez a regionális alapú megközelítés lehetővé tette az SNP-k azonosítását, amelyek informatívak az adott populációk számára, de az egyes régiók mintaméreteit meglehetősen korlátozottá tették. Ezért nem tudtuk, hogy felosztják a minta a képzés adatkészlet, illetve érvényesítés adatkészlet – ez azt eredményezné, hogy csökkenti a mintanagyság számok nem teszi lehetővé a statisztikailag szignifikáns elemzés. Ezért a megközelítésünk arra kényszerített minket, hogy ugyanazt az adatkészletet használjuk az SNP-k felfedezéséhez, az osztályozási modell felépítéséhez, valamint az érvényesítéshez, ami előrejelzési túlbecsülést eredményezhet. Ezért SNP-k teljesítményét felső becslésnek kell tekinteni,az azonosított SNP-k pedig jelölteknek, amíg a független mintán a jövőbeli vizsgálatokban nem ellenőrzik. Bár a felső szemszín stabilitása prediktív SNP-k a földrajzi régiókban részben igazolják az újonnan azonosított prediktív SNP-k hatékonyságát.