- Sestavení datového souboru
- Ověření přesnosti HIrisPlex na severní Eurasijské populace
- barvu Očí a vlasů a predikce v severní Eurasijské populace: vyhledávání nových informativní alely. Obecný pracovní postup
- barva Očí predikce
- Identifikace na vrchol Snp v souhrnné severní Euroasijské dataset
- Zúžení seznamu Snp a budování klasifikátor pro barvu očí na základě
- varianta nejlepší Modifikace seznamu přes geografické regiony
- severní Euroasijské Snp nastavit výkon
- barva Vlasů predikce
- nový potenciálně informativní Snp
- Omezení použitého přístupu
Sestavení datového souboru
Jsme phenotyped 300 osob ze 48 populací Ruska a sousedních zemí tím, že určí jejich očí a barvy vlasů. Nezávislá fenotypizace třemi odborníky a dostupnost fotografií pro revizi učinily fenotypizaci spolehlivou a reprodukovatelnou. Populace byly seskupeny do čtyř regionálních datových souborů: Evropské Rusko, Západní Sibiř, Kavkaz a severní Asie; obr. 1a představuje místa odběru vzorků a seskupení do regionálních datových souborů. V souladu se vzorkovanou velkou oblastí mají regionální metapopulace kontrastní genetické pozadí. Pro ilustraci těchto zjištění jsme provedli PC analýzu populací zahrnutých do této studie (obr. 1b). Bereme na vědomí, že populace, na které HIris-plex-S byla vyvinuta a validována (holandské, polské, Irské a řecké) zaujímají úzké zóny na „západní“ extreme PC spiknutí, zatímco populace přítomné v naší studii, zejména na Severní Asie, Kavkazu a Západní Sibiře jsou pronouncedly odlišné od Západní evropy a jeden od druhého. Tak, všechny následné analýzy byly provedeny pro každý regionální dataset a pro sdružené dataset.
vzorky DNA z těchto 300 jedinců byly sekvenovány pomocí speciálně konstruované capture exome který zahrnoval, kromě standardní Roche capture exome, intronic a intergenic regionů je známo, že nosit pigmentace související s polymorfních míst (viz Metody pro podrobnosti).
kombinovaná datová sada zahrnovala fenotypové hovory a genotypové hovory pro všechny jednotlivce. Fenotypové hovory zahrnovaly pět kategorií tmy vlasů, tři kategorie zarudnutí vlasů a pět kategorií tmy očí. Genotypová volání zahrnovala genotypy všech polymorfních míst identifikovaných v 53 genech a mezigenních oblastech, o nichž je známo, že se podílejí na pigmentaci očí/vlasů. Následné analýzy byly provedeny na podmnožinách tohoto kombinovaného souboru dat.
Ověření přesnosti HIrisPlex na severní Eurasijské populace
začali Jsme s odhadem přesnosti standardní očí/vlasů predikce systému v nově phenotyped populace. Od kombinovaný dataset jsme extrahovali fenotypové a genotypové volání pro 24 Modifikace zahrnuty v HIrisPlex-S. Pak jsme předpovídali, očí a barva vlasů od genotypů pomocí on-line HIrisPlex-S nástrojem a ve srovnání předpokládané fenotypy s reálné fenotypy (Tabulka 1). Tabulka 2 uvádí výsledky predikce barvy očí v různých metapopulacích (s výjimkou severní Asie, kde je frekvence světelných očí nízká). Našli jsme (Tabulka 1, Další soubor, 1), že AUC hodnoty ve sloučené Severní Euroasijské dataset je jen mírně nižší než v Západní/Střední Evropy (zejména pro hnědé a červené vlasy). Nicméně, když jsme analyzovali výsledky pro každý region zvlášť (Tabulka 2), jsme zjistili, že výkon HIrisPlex-S panel pro predikci barva očí je nižší pro jednotlivce z Kavkazu (hodnoty AUC jsou 0.83 a 0,78, pro modré a tmavé oči). Zejména odvolání pro modré oči na Kavkaze je výrazně nižší ve srovnání s ostatními severoasijskými regiony-pouze 47% (další soubor 2). Mohlo by to naznačovat, že geny pigmentačních metabolických drah v kavkazských populacích nesou alelové spektrum poněkud odlišné od spektra v Evropě. Při dělení datové sady podle fenotypové třídy (Tabulka 1 a Tabulka 2) jsme zjistili, že předpovídání obou, modrých a hnědých očí v Ruské populaci je mnohem méně efektivní. Zejména systémy HirisPlex-S mají tendenci špatně klasifikovat modré oči jako hnědé.
barvu Očí a vlasů a predikce v severní Eurasijské populace: vyhledávání nových informativní alely. Obecný pracovní postup
Náš genetický údaje o phenotyped osoby zahrnuté kompletní sekvenování pigmentace-asociovaných genů a příslušných intergenic regiony, spíše než dříve známých Snp. Byli jsme tedy potenciálně schopni odhalit nové informativní alely ve známých genech. Celkem jsme v 53 genech a mezigenních oblastech nazvali 117 012 SNP.
pro predikci barvy očí jsme provedli algoritmy výběru funkcí, abychom získali nové informativní alely pro populace Severní Euroasie pro 4 datové sady:
-
Sdružených Severní Euroasijské dataset
-
Evropské Rusko,
-
Kavkazu
-
Západní Sibiř
Pro barvu vlasů predikce jsme použili 5 datových souborů:
-
Sdružených Severní Euroasijské dataset
-
Evropské Rusko,
-
Kavkazu
-
Západní Sibiř
-
Severní Asie
Severní Asie soubor dat byl analyzován pouze pro barvu vlasů predikce vzhledem ke skutečnosti, pro tento region je pozorována změna v barvě vlasů, zatímco pro barvu očí, není tam žádná taková odchylka.
každá datová sada byla rozdělena v poměru 60:40 na tréninkové a zkušební vzorky se zachováním procenta vzorků pro každou třídu. Pro shromážděných údajů jsme kontrolovali, že vzorky z různých regionů zahrnuty v souhrnných údajů byly rozděleny ve stejném poměru (60:40), aby se zabránilo oblast týkající se podjatosti.
postup výběru funkcí byl proveden na datovém souboru školení (obrázek S2). Postup výběru funkcí sestával z použití tří algoritmů:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
Nepravidelný výběr funkcí s různými alfy (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
Při analýze rozložení skóre F (z f_regression) a MI (z mutual_info_regression) prahové hodnoty pro nejvíce efektivní funkce s nejvyšší skóre byly stanoveny pro každý dataset individuálně. Při výběru funkce laso jsme testovali různé možnosti parametru alfa. Pro každou hodnotu alfa jsme vypočítali skóre r2 na tréninkovém datovém souboru pro odpovídající podmnožinu SNP, které mají nenulové koeficienty.
z těchto podmnožin jsme vybrali ty nejdůležitější podle získaných skóre r2 pro každou datovou sadu zvlášť.
na základě výsledků tří algoritmů výběru funkcí byly všechny vybrané SNP sloučeny do nejlepších seznamů SNP pro každou datovou sadu.
v každém horním seznamu SNP jsme vybrali SNP, které mají nejlepší prediktivní sílu. Tyto SNP tvořily nejlepší seznamy SNP, které jsme použili k vytvoření klasifikátoru. Vyberte nejlepší Snp, použili jsme stejné měřítko jako HIrisPlex-S classificator:
-
modrá, středně pokročilé a hnědé pro barvu očí
-
červená, blond, hnědé a pro tmavé vlasy barvy,
Jsme za tyto třídy vzájemně nezávislé a snažil se vytvořit klasifikátor s nejlepší výkon a nejmenší Snp nastavit.
použili jsme samostatné systémy hodnocení pro predikci barvy očí a vlasů, abychom odhadli důležitost a predikční sílu každého SNP, abychom zúžili seznamy SNP.
výkon nejlepších vybraných funkcí byl ověřen na testovacím datovém souboru. Pro vyhodnocení kvality modelu jsme vypočítali skóre R2 (funkce koeficientu určení regresní skóre) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), skóre AUC, metriky přesnosti, vyvolání a přesnosti.
barva Očí predikce
Identifikace na vrchol Snp v souhrnné severní Euroasijské dataset
určit, první Modifikace spojené s barva očí v našem vzorku jsme použili tři algoritmy: f_regression (F-skóre), mutual_info_regression (MI), a Laso výběr funkcí s různými alfy (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
analyzovali jsme rozdělení skóre F (f_regression) a MI (mutual_info_regression) napříč vzorky a vybrali top 30 SNP s nejvyšším skóre.
Podle výsledků z Lasso funkce výběru jsme se rozhodli zařadit do top Snp seznam nejdůležitějších z nich – ty, s nenulovými koeficienty pro alfa = 0.5 (2 Snp ‚barva očí‘ dataset a 2 Snp ‚barva vlasů‘ dataset) a alfa = 0.2 (8 Snp pro barvu očí‘ dataset a 8 Snp pro barvu vlasů‘ dataset) – tyto Modifikace nesou největší predikční sílu podle r2 skóre hodnoty distribuce přes různé alfy. Zahrnuli jsme také sady SNP pro Alfy 0.1, 0.01 A 0.005.
konečný nejvyšší seznam SNP se skládal z 256 SNP (další soubor 3).
Zúžení seznamu Snp a budování klasifikátor pro barvu očí na základě
Jsme přiřadili každému SNP skóre od 0 do 3. Skóre 3 je přiřazen pouze pro Snp z úhrnných údajů top Snp seznamu, protože jejich výsledky byly pro daný dataset jsou mnohem více robustní než u regionálních datových souborů (velikosti vzorků pro regionální datové soubory jsou přítomny v Další soubor 4). Skóre 3 je přiřazeno SNP, které jsou v top 5 s nejvyšším skóre F nebo mají koeficienty větší nebo rovny 0,1 v absolutní hodnotě v modelech laso pro Alfa 0,2 nebo mají nenulové koeficienty v modelech laso pro Alfa 0,5. Pro sdružený vzorek je skóre 2 přiřazeno SNP, které jsou v top 10 s nejvyšším skóre F nebo MI nebo mají nenulové koeficienty v laso modelu pro Alfa 0.2. Skóre 1 je přiřazeno SNP, které mají koeficienty větší nebo rovny 0,1 v laso modelu pro Alfa 0,005. Všem ostatním SNP jsme přidělili skóre 0. Všech 36 SNP s nenulovým skóre tvořilo nejlepší seznam SNP a bylo použito pro klasifikátor.
pět SNP mělo nejvyšší skóre 3. Dva z nich byly dobře známé SNP způsobující barvu očí (rs1129038 a rs12913832), zatímco zbývající tři nebyly dříve hlášeny jako silné alely prediktivní barvy očí.
varianta nejlepší Modifikace seznamu přes geografické regiony
celá analýza provedena pro sdružené Severní Euroasijské dataset byl opakován pro obyvatelstvo ze tří následujících regionech samostatně: Evropské Rusko, Kavkaz a Západní Sibiř. Pro regionální datové sady skóre 2 byl přiřazen SNP, které byly na vrcholu 5 s nejvyšším skóre F A MI nebo měly koeficienty více nebo rovno 0.1 v absolutní hodnotě v laso modelu pro Alfa 0,5 nebo nenulové koeficienty v laso modelu pro Alfa 0,7. Skóre 1 bylo přiděleno SNP, které byly v top 6 s nejvyšším skóre F A MI nebo měly koeficienty nenulové koeficienty v modelech Lasso pro Alfa 0.7 A 0.5. Další soubor 5 představuje výsledné nejlepší sady SNPs pro všechny tři regiony. Porovnání regionálních seznamů a seznamu pro sdružený vzorek je uvedeno v doplňkovém souboru 6. Obecně platí, že soubor nejlepších SNP je stabilní napříč regiony: SNP s nejvyšším skóre jsou zahrnuty do většiny seznamů, zatímco mezi ostatními SNP jsou oba, identifikovány v každém regionu a pro daný region. Další studie o dalších fenotypových vzorcích je nezbytná k replikaci významu SNP specifických pro region.
sloučeny Modifikace seznamu řazeny podle celkového skóre (součet všech skóre pro 4 vzorky: Kavkaze, Západní Sibiři, Evropské části Ruska, a sdružené) (Další soubor 6). Top 7 SNP mají nejvyšší celkové skóre a vyskytly se ve více než jednom datovém souboru, což je další potvrzení, že tyto SNP mají silnou prediktivní sílu (Tabulka 3). Dva z těchto Snp (rs1129038 a rs12913832) jsou již zahrnuty v HIrisPlex-S panelem, zatímco dalších pět Snp jsou nové kandidáty pro barvu očí předpovídání v Severní Eurasijské populace. Odhadli jsme četnost těchto pěti SNP v Severoasijských populacích (další soubor 7). Každý SNP byl detekován s polymorfními frekvencemi v každé regionální populaci, takže tyto SNP jsou spíše běžné než vzácné.
severní Euroasijské Snp nastavit výkon
Jsme odhadovaný výkon Snp, které prokázaly nejvyšší prediktivní sílu v naší Severní Euroasijské vzorku. Minimální sada zahrnovala 7 SNP, z nichž dva byly dříve zahrnuty do panelu HIrisPlex-S. Optimální sada zahrnovala 36 SNP, které získaly nejvyšší skóre na sdruženém severoasijském datovém souboru. Testovali jsme klasifikační výkon obou sad Severoasijských SNP. Obrázek 2 představuje křivky ROC a skóre AUC pro predikci tří barev očí. Přesnost 7 Snp sada je téměř stejně účinný jako predikce na základě 41 HIrisPlex-S Snp, zatímco sada 36 Severní Euroasijské Snp mírně překonává 41 HIrisPlex-S Snp na našem vzorku (Obr. 2, Tabulka 1).
barva Vlasů predikce
Jsme provedli stejný výběr funkcí analýzy najít a vyhodnotit top Snp seznam pro barvu vlasů předpověď pro sdružené Severní Euroasijské vzorku, která zahrnuje obyvatelstvo z následujících regionech: Kavkaze, v Evropské části Ruska, Západní Sibiři a v Severní Asii.
vybrali jsme nejlepších 322 SNP a zúžili seznam na 33 nejlepších SNP, které mají nejsilnější výkon pro klasifikaci 4 stupňů: červená, blond, hnědá a tmavá barva vlasů, stejné měřítko jako HIrisPlex-S (další soubor 8).
Jsme přiřadili význam skóre vyberte minimální soubor Snp v následujícím způsobem:
- 1)
skóre 3 byla přiřazena k Snp, které jsou v top 5 s nejvyšší F nebo MI skóre, nebo mají koeficienty větší než 0,05 v absolutní hodnotě v Laso modely pro alfa 0,2 nebo mají non-nula koeficienty v Laso modely pro alfa 0.5
- 2)
skóre 2 byla přiřazena k Snp v top 10 s nejvyšší F nebo MI skóre,
- 3)
zbytek Snp 33 nejlepší Modifikace seznamu mají skóre 1
Jsme byli schopni detekovat nejsilnější 11 Snp, které mají nejvyšší skóre (3), tři z nich jsou zahrnuty v HIrisPlex-S panel (rs16891982, rs12913832, a rs1129038).
kontroluje výkon klasifikátor na základě 11 Snp nastavit a snažil se odhadnout jeho schopnost rozlišovat mezi 4 nezávislé tříd (stejné jako pro HIrisPlex-Y): červená, blond, hnědé a tmavé vlasy (Další soubor 9).
dále jsme se pokusili sloučit 2 třídy barvy vlasů-blond a hnědé-protože algoritmus nemá dostatek síly k jejich rozlišení a zkontroloval výkon vybraných SNP pro stupnici 3. Jak vidíme z výsledků (obr. 3) Výkon klasifikátoru se výrazně zlepšil u obou sad SNP: nejvýkonnějších 11 SNP a 33 nejlepších SNP.
nový potenciálně informativní Snp
Naše analýza identifikovala pět nových Modifikace, které prokázaly vysokou predikční sílu pro barvu očí. Tyto Snp byly zjištěny na směsný Severní Euroasijské vzorku a byly replikovány na většině regionálních dílčích vzorků. Čtyři z těchto SNP jsou umístěny v genu HERC2 a jeden (rs4812447) je v mezigenní oblasti. HERC2 (doména HECT a RLD obsahující E3 Ubiquitin Protein Ligase 2) patří do rodiny genů HERC, která kóduje skupinu neobvykle velkých proteinů, které obsahují více strukturních domén. Genetické variace v tomto genu jsou spojeny s variabilitou pigmentace kůže/vlasů/očí .
Omezení použitého přístupu
Jsme analyzovali výkon známo pigmentace prediktivní Snp a podíval se na novou Snp v dříve neprozkoumané populací z různých geografických oblastí. Tento regionální přístup umožnil identifikovat SNP, které jsou informativní pro konkrétní populace, ale velikost vzorku z každého regionu byla poměrně omezená. Proto, nebyli jsme schopni rozdělit náš vzorek do tréninkové datové sady a ověřovací datové sady-to by vedlo ke snížení velikosti vzorku na čísla, která neumožňují statisticky významnou analýzu. Proto, náš přístup nás přinutil použít stejný datový soubor pro objev SNP, budování klasifikačního modelu, a také pro validaci, což by mohlo vést k nadhodnocení predikce. Výkonnost našich SNP by proto měla být považována za horní odhad a identifikované SNP jako kandidátské až do ověření na nezávislém vzorku v budoucích studiích. Ačkoli stabilita prediktivních SNP nejvyšší barvy očí napříč geografickými regiony částečně ověřuje účinnost nově identifikovaných prediktivních SNP.