Optimalizálása a genetikai jóslat, a szem, a haj színe Észak-Eurázsiai népességgel

Összeszerelés az adatkészlet

Mi phenotyped 300 egyének 48 lakosság Oroszország, valamint a szomszédos országok azonosítása, a szem, a haj szín. Három szakértő független fenotipizálása és a felülvizsgálatra alkalmas fényképek rendelkezésre állása megbízhatóvá és reprodukálhatóvá tette a fenotipizálást. A populációkat négy regionális adatkészletbe csoportosították: Európai Oroszország, Nyugat-Szibéria, Kaukázus és Észak-Ázsia; ábra. Az 1a bemutatja a mintavételi helyeket, majd csoportosítja a regionális adatkészleteket. A mintában szereplő nagy területtel összhangban a regionális metapopulációk ellentétes genetikai háttérrel rendelkeznek. Elvégeztük a vizsgálatba bevont populációk PC-elemzését, hogy bemutassuk ezeket az eredményeket (ábra. 1b). Megjegyezzük, hogy a lakosság, amely a HIris-plex-S alakították ki, illetve érvényesített (holland, lengyel, Ír, görög) foglalnak el a keskeny zóna, a “nyugat” szélső a PC telek, miközben a lakosság jelen a vizsgálatban, különösen Észak-Ázsia, Kaukázus, illetve a Nyugat-Szibériában van, kimondottan különbözik a Nyugat-európai, majd egy másik. Így minden egyes regionális adatkészletre és az összevont adatkészletre vonatkozóan elvégeztek minden downstream elemzést.

ábra. 1
figure1

a vizsgált populációk. A. Panel: a vizsgált populációk térképe. A térképen szereplő számok a következő vizsgált populációkra utalnak: 1 – Chuvashes, 2 – Komi Permyaks, 3 – Komi Zürjének, 4 – Mari Rét, 5 – Mari-Hegy, 6 – Mordvins Erzya, 7 – Mordvins Moksha, 8 – Oroszok, 9 – Oroszok Nyekraszov ez a Kozákok, 10 – Oroszok Nyizsnyij Novgorod régióban, 11 – Oroszok a Tver régióban, 12 – Oroszok a Yaroslavlsky régió, 13 – Udmurts, 14 – Volga Tatárok, 15 – From, 16 – Avarok, 17 – Azeri, 18 – Dargins, 19 – Kabardinians, 20 – Karachays, 21 – Kumyks, 22 – Lezgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, 27 – Törökök Meskhetian, 28 – Bashkirs, 29 – Erdei Nyenyec, 30 – Hanti, 31 – Manysi, 32 – Shors, 33 – Szibériai Tatárok, 34 – Buryats, 35 – Chukchis, 36 – Dungans, 37 – távol – keleti Evenks, 38 – Kamchatka Evens, 39 – Okhotsk partja, 40 – Kazah, 41 – Kirgiz, 42 – Koryaks, 43 – Nanais, 44 – Tajiks, 45 – Turkmens, 46 – Ujgurs, 47-Uzbeks, 48-Yakuts Távol-Kelet. B. Panel: ennek a vizsgálati populációnak a fő összetevői, valamint a HIris-plex-ek kifejlesztéséhez/érvényesítéséhez használt populációk. A HIris-plex populációk fekete színűek. A színek az a

DNS-mintákat ebből a 300 egyedből a speciálisan tervezett exome capture segítségével szekvenálták, amely a standard Roche exome capture mellett magában foglalta a pigmentációval kapcsolatos polimorf helyek szállítására ismert intronikus és intergén régiókat is (a részleteket lásd a módszerekben).

a kombinált adatkészlet fenotípusos hívásokat és genotípusos hívásokat tartalmazott minden egyén számára. A fenotípusos hívások a haj sötétségének öt kategóriáját, a haj vörösségének három kategóriáját és a szem sötétségének öt kategóriáját tartalmazták. Genotípusos hívásokat tartalmazza genotípusok minden polimorf meghatározott területeken belül az 53 gének, illetve intergenic régiók ismert, hogy részt szem/haj pigmentálás. A downstream elemzéseket ennek a kombinált adatkészletnek a részhalmazain végezték.

A HIrisPlex pontosságának validálása az észak-Eurázsiai populációkban

elkezdtük megbecsülni a standard szem/haj predikciós rendszer pontosságát az újonnan fenotípusozott populációkban. A kombinált adatkészlet kivontuk a vizsgálatok, illetve genotípusos hívások 24 SNPs szerepel a HIrisPlex-S. Akkor megjósolta, a szem, a haj színe a genotípusok használja az online HIrisPlex-S eszköz, szemben a várható fenotípus az igazi fenotípus (1.Táblázat). A 2. táblázat bemutatja a szemszín-előrejelzés eredményeit különböző metapopulációkban (kivéve Észak-Ázsiát, ahol a könnyű szemek gyakorisága alacsony). Megállapítottuk (1.táblázat, 1. kiegészítő Fájl), hogy az összevont Észak-Eurázsiai adatkészletben az AUC-érték csak kissé alacsonyabb, mint a Nyugat-Közép-európaiaknál (különösen a barna és vörös haj esetében). Amikor azonban elemeztük az eredményeket minden régióban külön-külön (2. Táblázat), azt találtuk, hogy a teljesítményét HIrisPlex-S panel előre szeme színe alacsonyabb, az egyének, a Kaukázusi régió (AUC értékek 0.83, valamint 0.78, a kék, sötét szemek). Különösen a kaukázusi kék szemek visszahívása jelentősen alacsonyabb a többi Észak-Eurázsiai régióhoz képest – csak 47% (2.Kiegészítő fájl). Ez arra utalhat, hogy a kaukázusi populációk pigmentációs metabolikus útjainak génjei az allél spektrumát némileg különböztetik meg az európaiaktól. Az adatkészlet fenotípusos osztály szerinti felosztásakor (1.táblázat és 2. táblázat) azt találtuk, hogy az orosz népesség mindkét, kék és barna szemének előrejelzése sokkal kevésbé hatékony. Különösen a HirisPlex-s rendszerek hajlamosak a kék szemeket barnának minősíteni.

1.táblázat a szemszín-előrejelzés AUC-értéke és pontossága HirisPlex-s rendszer és Észak-Eurázsiai SNP-készlet felhasználásával az összevont Észak-Eurázsiai adatkészlethez
2. táblázat a szemszín-előrejelzés AUC-értéke és pontossága hirisplex-s SNP-k segítségével a regionális Észak-Eurázsiai adatkészletekhez

szem-és hajszín-előrejelzés Észak-eurázsiai populációkban: új informatív allélok keresése. Az általános munkafolyamat

A genetikai adatok a phenotyped egyének tartalmazza a teljes sorozatot, a pigmentáció kapcsolódó gének, illetve a vonatkozó intergenic régiók sokkal inkább, mint korábban ismert SNPs csak. Így potenciálisan képesek voltunk felfedni az új informatív allélokat az ismert génekben. Összesen 117 012 SNP-t hívtunk az 53 génben és az intergén régiókban.

a szemszín-előrejelzéshez funkcióválasztó algoritmusokat végeztünk annak érdekében, hogy új informatív allélokat kapjunk az Észak-Eurázsiai populációk számára 4 adatkészlethez:

  1. Egyesített Észak-Eurázsiai adatkészlet

  2. az Európai Oroszország

  3. Kaukázusi

  4. Nyugat-Szibériában

A haj színe jóslat használtuk 5 adatok:

  1. Egyesített Észak-Eurázsiai adatkészlet

  2. az Európai Oroszország

  3. Kaukázusi

  4. Nyugat-Szibériában

  5. Észak-Ázsia

Észak-Ázsiai adatkészlet volt, elemezni, csak a haja színe jóslat miatt a tény miatt, ebben a régióban van egy megfigyelt eltérés a haja színe, míg a szem színe, nincs olyan variáció.

minden adathalmaz 60: 40 arányban lett felosztva képzési és vizsgálati mintákra, megőrizve a minták százalékos arányát minden osztály esetében. Az összevont adatkészlethez ellenőriztük, hogy az összevont adatkészletben szereplő különböző régiókból származó mintákat azonos arányban (60:40) osztjuk meg, hogy elkerüljük a régióval kapcsolatos elfogultságot.

A funkcióválasztási eljárást a képzési adatkészleten (S2 ábra) hajtották végre. A funkciókiválasztási eljárás három algoritmus alkalmazásából állt:

  1. 1) f_regression
  2. 2) mutual_info_regression
  3. 3) Lasszó funkció kiválasztása a különböző alfák (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)

elemezve, hogy az eloszlás F pontszám (a f_regression) de MI (a mutual_info_regression) a küszöbértékeket a leghatékonyabb jellemzők a legmagasabb pontszámot is be minden adatkészlet külön-külön. A Lasso funkció kiválasztása során az alpha paraméter különböző választási lehetőségeit teszteltük. Az alpha minden értékére kiszámítottuk az R2 pontszámokat a képzési adatkészleten az SNP-k megfelelő részhalmazára, amelyek nem nulla együtthatóval rendelkeznek.

Ezen részhalmazok közül a legfontosabbakat választottuk ki a kapott R2 pontszámok szerint minden egyes adathalmazhoz külön-külön.

a funkcióválasztás három algoritmusának eredményei alapján az összes kiválasztott SNP-t egyesítették az egyes adatkészletek felső SNPs listáiban.

minden felső SNPs listában kiválasztottuk az SNP – ket, amelyek a legjobb prediktív erővel rendelkeznek. Ezek az SNP-k a legjobb SNP-listákat alkották, amelyeket egy osztályozó felépítéséhez használtunk. A legjobb SNP-k kiválasztásához ugyanazt a skálát használtuk, mint a HIrisPlex-s osztályozó:

  1. kék, köztes és barna a szemszín

  2. vörös, szőke, barna és sötét a hajszín

ezeket az osztályokat egymástól függetlennek tekintettük, és megpróbáltuk az osztályozót a legjobb erővel és a legkisebb SNP-készlettel felépíteni.

külön rangsorolási rendszereket használtunk a szem – és hajszín-előrejelzéshez, hogy megbecsüljük az egyes SNP-k fontosságát és előrejelzési erejét az SNP-listák szűkítése érdekében.

a legjobb kiválasztott funkciók teljesítményét a tesztadatkészleten validálták. A modell minőségének értékeléséhez kiszámítottuk az R2 pontszámot (a regressziós pontszám függvény meghatározási együtthatója) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), az AUC pontszámot, a pontosságot, a visszahívást és a pontossági mutatókat.

szemszín-előrejelzés

A felső SNP-k azonosítása az összevont Észak-Eurázsiai adatkészletben

a minta szemszínéhez kapcsolódó felső SNP-k azonosításához három algoritmust alkalmaztunk: f_regression( F pontszám), mutual_info_regession (MI), valamint Lasso funkció kiválasztása különböző alfákkal (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).

elemeztük az F (f_regression) és MI (mutual_info_regression) ponteloszlásokat a mintákon, és kiválasztottuk a legjobb 30 SNP-t a legmagasabb pontszámokkal.

Szerint az eredmények a Lasszó funkció kiválasztása úgy döntöttünk, hogy tartalmazza a felső SNPs lista a legfontosabbak – az is, hogy a nem nulla együtthatók az alfa = 0.5 (2 SNPs a ‘szem szín’ adatkészlet 2 SNPs a haja színe adatkészlet) alfa = 0.2 (8 SNPs a ‘szem szín’ adatkészlet 8 SNPs a haja színe adatkészlet) – ezek a SNPs hordozzák a legtöbb jóslat ereje szerint r2 pontszám értékek terjesztéséhez különböző alfák. A 0.1, 0.01 és 0.005 Alfák SNP készleteit is tartalmaztuk.

a végső felső SNPs lista 256 SNPs-ből állt (további 3.Fájl).

az SNP-k listájának szűkítése és a szemszín osztályozója alapján

minden SNP-hez 0-tól 3-ig terjedő pontszámot rendeltünk. A score 3 csak az összevont adatkészlet Top SNPs listájából származó SNP-khez van hozzárendelve, mivel az adott adatkészlet eredményei sokkal robusztusabbak, mint a regionális adatkészletek esetében (a regionális adatkészletek mintaméretei a kiegészítő fájlban vannak jelen 4). A pontszám 3 rendelt SNPs, hogy a top 5 a legmagasabb F pontszám, vagy együtthatók nagyobb vagy egyenlő, mint 0, 1 abszolút érték Lasszó modellek, alfa-0.2, vagy nem nulla együtthatók a Lasszó modellek, alfa-0.5. Az egyesített minta a pontszám 2 rendelt SNPs, hogy a top 10 a legmagasabb a F vagy a MI pontszámok, vagy nem nulla együtthatók a Lasszó modell alfa 0.2. Az 1 pontszámot olyan SNP-khez rendelik, amelyek az alfa 0.005 Lasso modellben 0.1-nél nagyobb vagy egyenlő együtthatókkal rendelkeznek. Az összes többi SNP-hez a 0 pontszámot kaptuk. Mind a 36 nem nulla pontszámmal rendelkező SNP a legjobb SNP-listát képezte, amelyet az osztályozóhoz használtak.

az öt SNP volt a legmagasabb pontszám 3. Ezek közül kettő jól ismert szemszínt okozó SNP (rs1129038 és rs12913832) volt, míg a fennmaradó háromról korábban nem számoltak be erős szemszín-előrejelző allélként.

A földrajzi régiók legjobb SNP-listájának variációja

az összevont Észak-Eurázsiai adatkészlet teljes elemzését megismételték a következő három régióból származó populációk esetében: Európai Oroszország, Kaukázus és Nyugat-Szibéria. A regionális adatkészletek esetében a 2-es pontszámot olyan SNP-khez rendelték, amelyek a legmagasabb F és MI pontszámokkal rendelkeztek, vagy 0-nál nagyobb vagy egyenlő együtthatókkal rendelkeztek.1 A Lasso modell abszolút értékében alpha 0.5 vagy nem nulla együtthatók a Lasso modellben az alpha 0.7 esetében. Az 1. pontszámot olyan SNP-khez rendelték, amelyek a legmagasabb F és MI pontszámokkal rendelkeztek, vagy az alfa 0.7 és 0.5 Lasso modellekben nem nulla együtthatókkal rendelkeznek. További file 5 bemutatja a kapott legjobb SNPs készletek mindhárom régióban. A regionális listák és az összevont minta listájának összehasonlítása a 6.Kiegészítő fájlban található. Általában véve a legjobb SNP-k készlete stabil az egész régióban: a legmagasabb pontszámmal rendelkező SNP-k szerepelnek a legtöbb listán,míg a többi SNP között mindkettő megtalálható, minden régióban és régióspecifikus. A régióspecifikus SNP-k jelentőségének megismétléséhez további vizsgálat szükséges a további fenotípusos mintákon.

az egyesített SNPs-listát összpontszám alapján rangsorolták (4 minta összes pontszámának összege: Kaukázus, Nyugat-Szibéria, európai Oroszország és összevont) (6.Kiegészítő fájl). A Top 7 SNP-k a legmagasabb összpontszámmal rendelkeznek, és egynél több adatkészletben is előfordultak, ami további megerősítést jelent, hogy ezek az SNP-k erős prediktív erővel rendelkeznek (3.táblázat). Az SNP-k közül kettő (rs1129038 és rs12913832) már szerepel a HIrisPlex-s panelen, míg további öt SNP új jelölt a szemszín előrejelzésére az Észak-Eurázsiai populációkban. Az Észak-Eurázsiai populációkban becsültük az öt SNP gyakoriságát (további 7.Fájl). Minden egyes SNP-t polimorf frekvenciákkal észleltek minden regionális populációban, így ezek az SNP-k inkább gyakoriak, mint ritkák.

3.táblázat a 36 legjobb Észak-Eurázsiai SNP listája a szemszín-előrejelzéshez

az észak-Eurázsiai SNP-k teljesítménye

az SNP-k teljesítményét becsültük meg, amelyek Északunkban a legmagasabb prediktív teljesítményt mutatták eurázsiai minta. A minimális készlet 7 SNP-t tartalmazott, amelyek közül kettő korábban bekerült a HIrisPlex-s panelbe. Az optimális készlet 36 SNP-t tartalmazott, amelyek a legmagasabb pontszámot kapták az összevont Észak-Eurázsiai adatkészleten. Teszteltük az észak-Eurázsiai SNP-k mindkét készletének osztályozási teljesítményét. A 2. ábra a ROC görbéket és AUC pontszámokat mutatja be a három szemszín előrejelzéséhez. A 7 SNPs készlet pontossága majdnem olyan hatékony, mint a 41 HIrisPlex-s SNP-n alapuló előrejelzés, míg az 36 Észak-Eurázsiai SNP-k halmaza kissé felülmúlja a 41 HIrisPlex-s SNP-ket a mintánkon (ábra. 2, 1. táblázat).

ábra. 2
figure2

ROC-AUC görbék a szemszín-előrejelzéshez az Észak-Eurázsiai adatkészleten három fokozatú skálán. A Panel: eredmények a 7 SNPs készleten. B Panel: a 36 SNP

hajszín-előrejelzés

ugyanazt a funkcióválasztási elemzést végeztük el, hogy megtaláljuk és értékeljük a hajszín-előrejelzést az összevont Észak-Eurázsiai mintára, amely a következő régiók populációit tartalmazza: Kaukázus, Európai Oroszország, Nyugat-Szibéria és Észak-Ázsia.

kiválasztottuk a legjobb 322 SNP-t, majd a listát 33 legjobb SNP-re szűkítettük, amelyek a legerősebb teljesítményt nyújtják a 4 fokozatú osztályozáshoz: vörös, szőke, barna és sötét hajszín, ugyanolyan léptékű, mint a HIrisPlex-S (További fájl 8).

Mi rendelt jelentősége pontszámokat, hogy válassza ki a minimális SNPs a következő módon:

  1. 1)

    A pontszám 3 rendelt SNPs, hogy a top 5 a legmagasabb a F vagy a MI pontszámok, vagy együtthatók több, mint 0.05 abszolút érték Lasszó modellek, alfa-0.2, vagy nem nulla együtthatók a Lasszó modellek, alfa-0.5

  2. 2)

    Az eredmény 2 rendelt SNPs a top 10 a legmagasabb a F vagy a MI eredmények

  3. 3) A többi SNPs a 33 legjobb SNPs lista a pontszám 1

tudtunk kimutatni a legerősebb 11 SNPs, hogy a legmagasabb pontszámot (3), hárman szerepelnek HIrisPlex-S panel (rs16891982, rs12913832, valamint rs1129038).

az osztályozó teljesítményét 11 SNPs készlet alapján ellenőriztük, és megpróbáltuk megbecsülni, hogy képes-e megkülönböztetni 4 független osztályt (ugyanaz, mint a HIrisPlex-S esetében): vörös, szőke, barna és sötét haj (további 9.fájl).

emellett megpróbáltuk egyesíteni a hajszín 2 osztályát – szőke és barna -, mert az algoritmusnak nincs elég ereje ahhoz, hogy megkülönböztesse őket, és ellenőriztük a kiválasztott SNP-k teljesítményét 3 fokozatú skálán. Amint azt az eredményekből láthatjuk (ábra. 3) az osztályozó teljesítménye jelentősen javult mindkét SNP-készlet esetében: a legerősebb 11 SNP és 33 legjobb SNP.

ábra. 3
figure3

A. ROC-AUC görbék a hajszín előrejelzéséhez az Észak-Eurázsiai adatkészleten a három fokozatú skálán. A Panel: eredmények a 11 SNPs készleten. B Panel: eredmények a 33 SNPs set

az új potenciálisan informatív SNP-k

elemzésünk öt új SNP-t azonosított, amelyek bizonyították a szem színének magas előrejelzési erejét. Ezeket az SNP-ket az összegyűjtött Észak-Eurázsiai mintán fedezték fel, és a legtöbb regionális alcsoporton replikálták. Négy ilyen SNP található HERC2 génben, egy (rs4812447) pedig az intergén régióban található. A HERC2 (E3 Ubiquitin Protein Ligase 2-t tartalmazó HECT és RLD Domain) gén a Herc géncsaládba tartozik, amely szokatlanul nagy fehérjék egy csoportját kódolja, amelyek több szerkezeti domént tartalmaznak. Ennek a génnek a genetikai variációi a bőr/haj/szem pigmentációs változékonyságához kapcsolódnak .

az alkalmazott megközelítés korlátai

elemeztük az ismert pigmentációs prediktív SNP-k teljesítményét, és az új SNP-ket kerestük a különböző földrajzi területekről származó, korábban nem vizsgált populációkban. Ez a regionális alapú megközelítés lehetővé tette az SNP-k azonosítását, amelyek informatívak az adott populációk számára, de az egyes régiók mintaméreteit meglehetősen korlátozottá tették. Ezért nem tudtuk, hogy felosztják a minta a képzés adatkészlet, illetve érvényesítés adatkészlet – ez azt eredményezné, hogy csökkenti a mintanagyság számok nem teszi lehetővé a statisztikailag szignifikáns elemzés. Ezért a megközelítésünk arra kényszerített minket, hogy ugyanazt az adatkészletet használjuk az SNP-k felfedezéséhez, az osztályozási modell felépítéséhez, valamint az érvényesítéshez, ami előrejelzési túlbecsülést eredményezhet. Ezért SNP-k teljesítményét felső becslésnek kell tekinteni,az azonosított SNP-k pedig jelölteknek, amíg a független mintán a jövőbeli vizsgálatokban nem ellenőrzik. Bár a felső szemszín stabilitása prediktív SNP-k a földrajzi régiókban részben igazolják az újonnan azonosított prediktív SNP-k hatékonyságát.

Related Posts

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük