- Montaż zestawu danych
- Walidacja precyzji HIrisPlex na populacjach północno-euroazjatyckich
- prognozowanie koloru oczu i włosów w populacjach eurazjatyków północnych: poszukiwanie nowych alleli informacyjnych. Ogólny przepływ pracy
- przewidywanie koloru oczu
- identyfikacja najlepszych SNP w zbiorczym zestawie danych z północnej Eurazji
- zawężając listę SNP i budując na jej podstawie klasyfikator koloru oczu
- zmienność listy najlepszych SNPs w różnych regionach geograficznych
- wydajność SNP północno-euroazjatyckich ustawiono
- prognoza koloru włosów
- nowe potencjalnie informacyjne SNPs
- ograniczenia zastosowanego podejścia
Montaż zestawu danych
fenotypowaliśmy 300 osobników z 48 populacji Rosji i krajów sąsiednich, identyfikując ich kolory oczu i włosów. Niezależne fenotypowanie przez trzech ekspertów i dostępność zdjęć do rewizji sprawiły, że fenotypowanie było wiarygodne i powtarzalne. Populacje zostały pogrupowane w cztery regionalne zbiory danych: Europejska Rosja, Zachodnia Syberia, Kaukaz i Północna Azja; rys. 1a przedstawia lokalizacje próbkowania i grupowanie w Regionalne zbiory danych. W korespondencji z dużym obszarem, z którego pobrano próbki, regionalne metapopulacje mają kontrastujące tło genetyczne. Przeprowadziliśmy analizę PC populacji włączonych do tego badania, aby zilustrować te ustalenia (rys. 1B). Zauważamy, że populacje, na których opracowano i zwalidowano HIris-plex-S (holenderska, Polska, Irlandzka i grecka) zajmują wąską strefę na „zachodnim” krańcu działki PC, podczas gdy populacje obecne w naszych badaniach, zwłaszcza Północnoazjatycka, Kaukaska i Zachodnia Syberia, są wymownie różne od zachodnich Europejczyków i od siebie nawzajem. W związku z tym wszystkie późniejsze analizy zostały przeprowadzone dla każdego Regionalnego zbioru danych oraz dla zbiorczego zbioru danych.
badane populacje. Panel a: Mapa badanych populacji. Liczby na mapie odnoszą się do następujących badanych populacji: 1 – Chuvashes, 2 – Komi Permyaks, 3 – Komi Zyrians, 4 – Mari Meadow, 5 – Mari Mountain, 6 – Mordvins Erzya, 7 – Mordvins Moksza, 8 – Russian, 9 – Russian Niekrasov ’ s Cossacs, 10 – Russian Niżny Nowogród, 11 – Russian Twer region, 12 – Russian Yaroslavlsky region, 13 – Udmurts, 14 – Volga Tatars, 15 – Adyghe, 16 – Avars, 17 – azerski, 18 – Dargins, 19 – Kabardinians, 20 – Karaczi, 21 – Kumyks, 22 – Lezgins, 23 – Osets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, 27 – Turcy Meskhetian, 28 – baszkirs, 29 – Forest Nenets, 30 – Chanty, 31 – Mansi, 32 – Szors, 33 – syberyjski Tatarzy, 34-Buriaci, 35 – Czukczowie, 36 – Dungani, 37 – Parzystowie Dalekiego Wschodu, 38 – rówieśnicy Kamczatki, 39 – rówieśnicy wybrzeża Ochockiego, 40 – Kazachowie, 41 – Kirgizi, 42 – Koriacy, 43 – Nanais, 44 – Tadżycy, 45 – Turkmeni, 46 – Ujgurowie, 47 – Uzbecy, 48-Jakuci Dalekiego Wschodu. Panel b: główny Wykres składników dla populacji badanych oraz dla populacji wykorzystywanych do rozwoju/walidacji HIris-plex-S. Populacje HIris-plex są czarne. Kolory odnoszą się do regionalnych zestawów danych obecnych na panelu a
próbki DNA od tych 300 osób zsekwencjonowano przy użyciu specjalnie zaprojektowanego wychwytywania exome, który obejmował, oprócz standardowego wychwytywania Exome firmy Roche, regiony introniczne i międzygeniczne znane z przenoszenia miejsc polimorficznych związanych z pigmentacją (szczegóły w metodach).
połączony zbiór danych obejmował wywołania fenotypowe i wywołania genotypowe dla wszystkich osób. Nazwy fenotypowe obejmowały pięć kategorii ciemności włosów, trzy kategorie zaczerwienienia włosów i pięć kategorii ciemności oczu. Genotypowe wywołania obejmowały genotypy wszystkich polimorficznych miejsc zidentyfikowanych w obrębie 53 genów i regionów międzygenicznych, o których wiadomo, że biorą udział w pigmentacji oczu/włosów. Dalsze analizy przeprowadzono na podgrupach tego połączonego zbioru danych.
Walidacja precyzji HIrisPlex na populacjach północno-euroazjatyckich
zaczęliśmy od oszacowania precyzji standardowego systemu przewidywania oczu/włosów w nowo fenotypowanych populacjach. Z połączonego zbioru danych wyodrębniliśmy fenotypowe i genotypowe wezwania do 24 SNP zawarte w HIrisPlex-S. następnie przewidzieliśmy kolor oczu i włosów na podstawie genotypów za pomocą internetowego narzędzia HIrisPlex-s i porównaliśmy przewidywane fenotypy z prawdziwymi fenotypami (Tabela 1). Tabela 2 przedstawia wyniki przewidywania koloru oczu w różnych metapopulacjach (z wyjątkiem Azji Północnej, gdzie częstość występowania jasnych oczu jest niska). Odkryliśmy (Tabela 1, dodatkowy plik 1), że wartość AUC w zbiorczym zestawie danych północno-euroazjatyckich jest tylko nieco niższa niż w Europie Zachodniej/Środkowej (szczególnie w przypadku brązowych i rudych włosów). Jednak analizując wyniki dla każdego regionu osobno (Tabela 2), stwierdziliśmy, że wydajność Panelu HIrisPlex-s do przewidywania koloru oczu jest niższa dla osób z regionu Kaukazu (wartości AUC wynoszą 0,83 i 0,78, dla oczu niebieskich i ciemnych). W szczególności, wycofanie niebieskich oczu na Kaukazie jest znacznie niższe w porównaniu z innymi północnymi regionami Euroazjatyckimi-tylko 47% (dodatkowy plik 2). Może to wskazywać, że geny szlaków metabolicznych pigmentacji w populacjach Kaukazu mają spektrum alleli nieco inne niż w Europie. Podczas dzielenia zbioru danych według klasy fenotypowej (Tabela 1 i Tabela 2) stwierdziliśmy, że przewidywanie zarówno niebieskich, jak i brązowych oczu w populacji rosyjskiej jest znacznie mniej skuteczne. W szczególności systemy HirisPlex – s mają tendencję do mylnego klasyfikowania niebieskich oczu jako brązowych.
prognozowanie koloru oczu i włosów w populacjach eurazjatyków północnych: poszukiwanie nowych alleli informacyjnych. Ogólny przepływ pracy
nasze dane genetyczne dotyczące osób fenotypowych obejmowały pełne sekwencjonowanie genów związanych z pigmentacją i odpowiednich regionów międzygenicznych, a nie tylko znanych wcześniej SNP. W ten sposób mogliśmy potencjalnie ujawnić nowe allele informacyjne w znanych genach. Łącznie nazwaliśmy 117 012 SNP w 53 genach i regionach międzygenicznych.
do prognozowania koloru oczu wykonaliśmy algorytmy doboru cech w celu uzyskania nowych alleli informacyjnych dla populacji północnej Eurazji dla 4 zestawów danych:
-
zbiorczy zbiór danych północnej Eurazji
-
Europejska Rosja
-
Kaukaz
-
Zachodnia Syberia
do prognozowania koloru włosów wykorzystaliśmy 5 zbiorów danych:
-
zbiorczy zbiór danych północnej Eurazji
-
Europejska Rosja
-
Kaukaz
-
Zachodnia Syberia
-
Północna Azja
północnoazjatycki zbiór danych został przeanalizowany tylko pod kątem przewidywania koloru włosów ze względu na fakt, że w tym regionie obserwuje się zmienność koloru włosów, podczas gdy w przypadku koloru oczu nie ma takiej zmienności.
każdy zbiór danych został podzielony w stosunku 60: 40 na próbki treningowe i testowe z zachowaniem procentu próbek dla każdej klasy. W przypadku zbiorczego zbioru danych kontrolowaliśmy, że próbki z różnych regionów wchodzących w skład zbiorczego zbioru danych zostały podzielone w tej samej proporcji (60:40), aby uniknąć odchylenia związanego z regionem.
procedura wyboru funkcji została przeprowadzona na zestawie danych treningowych (rysunek S2). Procedura wyboru funkcji polegała na zastosowaniu trzech algorytmów:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
wybór funkcji Lasso z różnymi Alfami (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
podczas analizy rozkładu wyniku F (z f_regression) i MI (z mutual_info_regression) progi dla najbardziej efektywnych funkcji z najwyższymi wynikami były ustalane dla każdego zbioru danych indywidualnie. Podczas wyboru funkcji Lasso testowaliśmy różne opcje parametru Alfa. Dla każdej wartości alpha obliczyliśmy wyniki r2 na zestawie danych treningowych dla odpowiedniego podzbioru SNP, które mają niezerowe współczynniki.
spośród tych podzbiorów wybraliśmy najważniejsze według uzyskanych wyników r2 dla każdego zbioru danych indywidualnie.
na podstawie wyników trzech algorytmów wyboru funkcji wszystkie wybrane SNP zostały połączone w górnej liście SNP dla każdego zbioru danych.
na każdej liście najlepszych SNP wybraliśmy SNP, które mają najlepszą moc predykcyjną. Te SNP utworzyły najlepsze listy SNP, których użyliśmy do zbudowania klasyfikatora. Aby wybrać najlepsze SNP, użyliśmy tej samej skali co klasyfikator HIrisPlex – s:
-
NIEBIESKI, średni i brązowy dla koloru oczu
-
czerwony, blond, brązowy i ciemny dla koloru włosów
uznaliśmy te klasy za niezależne od siebie i staraliśmy się zbudować klasyfikator o najlepszej mocy i najmniejszym zestawie SNP.
użyliśmy oddzielnych systemów rankingowych dla prognozowania koloru oczu i włosów, aby oszacować znaczenie i moc przewidywania każdego SNP w celu zawężenia list SNP.
wydajność najlepszych wybranych funkcji została potwierdzona na zestawie danych testowych. W celu oceny jakości modelu obliczyliśmy wynik R2 (funkcja oceny regresji współczynnika determinacji) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), wynik AUC, dokładność, przypomnienie i metryki dokładności.
przewidywanie koloru oczu
identyfikacja najlepszych SNP w zbiorczym zestawie danych z północnej Eurazji
aby zidentyfikować najlepsze SNP związane z kolorem oczu w naszej próbce, zastosowaliśmy trzy algorytmy: f_regression (wynik F), mutual_info_regression (MI) i Lasso feature selection z różnymi Alfami (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
przeanalizowaliśmy rozkład wyników F (f_regression) i MI (mutual_info_regression) w próbkach i wybraliśmy 30 najlepszych SNP z najwyższymi wynikami.
zgodnie z wynikami Lasso feature selection zdecydowaliśmy się na umieszczenie w top liście SNPs najważniejszych – tych o niezerowych współczynnikach dla alpha = 0,5 (2 SNPs dla zbioru danych „kolor oczu” i 2 SNPs dla zbioru danych „Kolor włosów”) oraz alpha = 0.2 (8 SNP dla zbioru danych „kolor oczu” i 8 SNP dla zbioru danych „Kolor Włosów”) – te SNP mają największą moc przewidywania zgodnie z rozkładem wartości score R2 w różnych alfach. Dodaliśmy również zestawy SNP dla Alfy 0.1, 0.01 i 0.005.
ostateczna lista SNPs składała się z 256 SNPs (dodatkowy plik 3).
zawężając listę SNP i budując na jej podstawie klasyfikator koloru oczu
każdemu SNP przypisaliśmy wynik od 0 do 3. Wynik 3 jest przypisany tylko dla SNP z listy Top SNPs z pooled dataset ze względu na to, że wyniki uzyskane dla tego zbioru danych są znacznie bardziej solidne niż dla regionalnych zbiorów danych (rozmiary próbek dla regionalnych zbiorów danych są obecne w dodatkowym pliku 4). Wynik 3 jest przypisany SNP, które są w top 5 z najwyższym wynikiem F lub mają współczynniki większe lub równe 0.1 W wartości bezwzględnej w modelach Lasso dla Alfa 0.2 lub mają niezerowe współczynniki w modelach Lasso dla Alfa 0.5. Dla zbiorczej próbki wynik 2 jest przypisany SNP, które znajdują się w top 10 z najwyższymi wynikami F lub MI lub mają niezerowe współczynniki w modelu Lasso dla Alfa 0.2. Wynik 1 jest przypisany do SNP, które mają współczynniki większe lub równe 0,1 w modelu Lasso dla Alfa 0,005. Wszystkim pozostałym SNP przypisaliśmy wynik 0. Wszystkie 36 SNP z niezerowymi wynikami tworzyły listę najlepszych SNP i zostały użyte do klasyfikacji.
pięć SNP miało najwyższą notę 3. Dwa z nich były dobrze znanymi SNP powodującymi kolor oczu (rs1129038 i rs12913832), podczas gdy pozostałe trzy nie były wcześniej zgłaszane jako potężne allele predykcyjne koloru oczu.
zmienność listy najlepszych SNPs w różnych regionach geograficznych
Cała analiza przeprowadzona dla zbiorczego zbioru danych północno-euroazjatyckich została powtórzona dla populacji z trzech następujących regionów oddzielnie: Europejskiej Rosji, Kaukazu i zachodniej Syberii. Dla regionalnych zbiorów danych Wynik 2 został przypisany do SNP, które były w top 5 z najwyższymi wynikami F i MI lub miały współczynniki większe lub równe 0.1 w wartości bezwzględnej w modelu Lasso dla Alfa 0,5 lub niezerowych współczynników w modelu Lasso dla Alfa 0,7. Wynik 1 został przypisany do SNP, które były w top 6 z najwyższymi wynikami F i MI lub mają współczynniki niezerowe w modelach Lasso dla Alfa 0.7 i 0.5. Plik dodatkowy 5 przedstawia najlepsze Zestawy SNP dla wszystkich trzech regionów. Porównanie list regionalnych z listą zbiorczej próby znajduje się w dodatkowym pliku 6. Ogólnie rzecz biorąc, zestaw najlepszych SNP jest stabilny w poszczególnych regionach: SNP z najwyższymi wynikami znajdują się na większości list, podczas gdy wśród innych SNP są oba, zidentyfikowane w każdym regionie i dla danego regionu. Konieczne jest dalsze badanie dodatkowych próbek fenotypowych w celu odtworzenia znaczenia SNP specyficznych dla danego regionu.
lista SNPs została uszeregowana według łącznej punktacji (jako suma wszystkich punktów dla 4 próbek: Kaukazu, Zachodniej Syberii, Europejskiej Rosji i zbiorczej) (plik dodatkowy 6). 7 najlepszych SNP ma najwyższy całkowity wynik i wystąpił w więcej niż jednym zbiorze danych, co jest dodatkowym potwierdzeniem, że te SNP mają silną moc predykcyjną (Tabela 3). Dwa z tych SNP (rs1129038 i rs12913832) są już włączone do Panelu HIrisPlex – s, podczas gdy pozostałe pięć SNP są nowymi kandydatami do przewidywania koloru oczu w północnych populacjach euroazjatyckich. Oszacowaliśmy częstość występowania tych pięciu SNP w północnej populacji Euroazjatyckiej (dodatkowy plik 7). Każdy SNP został wykryty z polimorficzną częstością w każdej populacji regionalnej, więc te SNP są powszechne, a nie rzadkie.
wydajność SNP północno-euroazjatyckich ustawiono
oszacowaliśmy wydajność SNP, które wykazały najwyższą moc predykcyjną w naszej północno-euroazjatyckiej próbce. W zestawie minimalnym znalazło się 7 SNP-ów, z których dwa były wcześniej dołączone do Panelu HIrisPlex-S. Optymalny zestaw obejmował 36 SNP, które uzyskały najwyższe wyniki w zbiorczym zestawie danych północno-euroazjatyckich. Przetestowaliśmy skuteczność klasyfikacyjną obu zestawów SNP północno-euroazjatyckich. Rysunek 2 przedstawia krzywe ROC i wyniki AUC dla przewidywania trzech kolorów oczu. Dokładność zestawu 7 SNPs jest prawie tak samo skuteczna jak przewidywanie oparte na 41 HIrisPlex-s SNPs, podczas gdy zestaw 36 północno-euroazjatyckich SNPs nieznacznie przewyższa 41 HIrisPlex-s SNPs na naszej próbce (rys. 2, Tabela 1).
prognoza koloru włosów
przeprowadziliśmy tę samą analizę wyboru funkcji, aby znaleźć i ocenić listę najlepszych SNPs dla prognozy koloru włosów dla zbiorczej próbki północnej Eurazji, która obejmuje populacje z następujących regionów: Kaukaz, Europejska Rosja, Zachodnia Syberia i Północna Azja.
wybraliśmy 322 najlepszych SNP i zawęziliśmy listę do 33 najlepszych SNP, które mają najsilniejsze wyniki w klasyfikacji 4-stopniowej: czerwony, blond, brązowy i ciemny kolor włosów, taka sama skala jak HIrisPlex-S (dodatkowy plik 8).
przypisaliśmy punkty istotności, aby wybrać minimalny zestaw SNP w następujący sposób:
- 1)
wynik 3 został przypisany do SNP, które są w top 5 z najwyższymi wynikami F lub MI lub mają współczynniki większe niż 0,05 w wartości bezwzględnej w modelach Lasso dla Alfa 0,2 lub mają niezerowe współczynniki w modelach Lasso dla Alfa 0.5
- 2)
wynik 2 został przypisany do SNP w top 10 z najwyższymi wynikami F lub MI
- 3)
reszta SNP z listy 33 najlepszych SNP ma wynik 1
udało nam się wykryć najmocniejsze 11 SNP, które mają najwyższy wynik (3), trzy z nich znajdują się w Panelu HIrisPlex-s (rs16891982, rs12913832 i rs1129038).
sprawdziliśmy wydajność klasyfikatora na podstawie 11 zestawów SNPs i próbowaliśmy oszacować jego zdolność do rozróżniania 4 niezależnych klas (takich samych jak w przypadku HIrisPlex-S): czerwonych, blond, brązowych i ciemnych włosów (dodatkowy plik 9).
dodatkowo próbowaliśmy połączyć 2 klasy koloru włosów-blond i brown – ponieważ algorytm nie ma wystarczającej mocy, aby je rozróżnić, i sprawdziliśmy wydajność wybranych SNP dla 3 stopniowej skali. Jak widać z wyników (rys. 3) wydajność klasyfikatora znacznie się poprawiła dla obu zestawów SNP: najmocniejszych 11 SNP i 33 najlepszych SNP.
A. Roc-krzywe AUC dla prognozowania koloru włosów na północno-euroazjatyckim zbiorze danych dla skali trzech stopni. Panel a: wyniki na zestawie 11 SNPs. Panel b: wyniki zestawu 33 SNPs
nowe potencjalnie informacyjne SNPs
nasza analiza zidentyfikowała pięć nowych SNPs, które wykazały wysoką moc przewidywania koloru oczu. Te SNP zostały ujawnione na zbiorczej próbie północnej Eurazji i zostały zreplikowane na najbardziej regionalnych podgrupach. Cztery z tych SNP znajdują się w genie HERC2, a jeden (rs4812447) znajduje się w regionie międzygenicznym. HERC2 (domena HECT i RLD zawierająca Ligazę białka E3 ubikwityny 2) należy do rodziny genów HERC, która koduje grupę niezwykle dużych białek, które zawierają wiele domen strukturalnych. Zmiany genetyczne w tym genie są związane ze zmiennością pigmentacji skóry/włosów / oczu .
ograniczenia zastosowanego podejścia
przeanalizowaliśmy wydajność znanych SNP prognostycznych pigmentacji i poszukaliśmy nowych SNP w wcześniej nie zbadanych populacjach z różnych obszarów geograficznych. To regionalne podejście pozwoliło zidentyfikować SNP, które mają charakter informacyjny dla poszczególnych populacji, ale sprawiło, że wielkość próby z każdego regionu była dość ograniczona. Dlatego nie byliśmy w stanie podzielić naszej próbki na zestaw danych treningowych i zestaw danych walidacyjnych – skutkowałoby to zmniejszeniem rozmiarów próbek do liczb, które nie pozwalałyby na statystycznie istotną analizę. Dlatego nasze podejście zmusiło nas do użycia tego samego zestawu danych do wykrywania SNPs, budowania modelu klasyfikacji, a także do walidacji, co może skutkować zawyżeniem prognoz. W związku z tym Wyniki naszych SNP powinny być traktowane jako górne oszacowanie, a zidentyfikowane SNP jako kandydujące do czasu weryfikacji na niezależnej próbie w przyszłych badaniach. Chociaż stabilność Top eye color predictive SNP w różnych regionach geograficznych częściowo weryfikuje skuteczność nowo zidentyfikowanych Predictive SNP.