a Otimização genética de previsão dos olhos e cor do cabelo para o Norte da Eurásia populações

a Montagem do conjunto de dados

Nós phenotyped 300 indivíduos a partir de 48 populações de Rússia e países vizinhos, identificando seus olhos e cores de cabelo. Fenotipagem independente por três especialistas e disponibilidade de fotos para revisitar tornou a fenotipagem confiável e reprodutível. As populações foram agrupadas em quatro conjuntos de dados regionais: Rússia Europeia, Oeste da Sibéria, Cáucaso e Norte da Ásia; Fig. 1a apresenta os locais de amostragem e o agrupamento nos conjuntos de dados regionais. Em correspondência com a grande área amostrada, as metapopulações regionais têm antecedentes genéticos contrastantes. Realizamos a análise PC das populações incluídas neste estudo para ilustrar estes achados(Fig. 1b). Nota-se, que as populações que o HIris-plex-S foi desenvolvido e validado (holandês, polonês, Irlandês e grego) ocupam o estreito de zona no “western” extrema do PC trama, enquanto as populações presentes no nosso estudo, particularmente Norte-Asiáticos, Cáucaso e Oeste da Sibéria são pronouncedly diferente da europa Ocidental e um do outro. Assim, todas as análises a jusante foram realizadas para cada conjunto de dados regionais e para o conjunto de dados agrupados.

Fig. 1
figure1

as populações estudadas. Painel a: o mapa das populações estudadas. Os números no mapa referem-se às seguintes populações estudadas:: 1 – Chuvashes, 2 – Komi Permyaks, 3 – Komi Zyrians, 4 – Mari Prado, 5 – Mari Montanha, 6 – Mordvins Erzya, 7 – Mordvins Moksha, 8 – Russos, 9 – Russos Nekrasov do Cossacs, 10 – Russos de Nizhny Novgorod região, 11 – Russos da região de Tver, 12 – Russos de Yaroslavlsky região, 13 – Udmurts, 14 – Tártaros do Volga, De 15 Najdi, De 16 Ávaros, 17 – Azeri, 18 – Dargins, 19 – Kabardinians, 20 – Karachays, 21 – Kumyks, 22 – Lezgins, 23 – Ossets, 24 – Rutuls, 25 – Talysh, 26 – Tsakhur, De 27 Turcos Meskhetian, 28 – Bashkirs, 29 – Floresta Nenets, 30 – Khanty, 31 – Mansi, 32 – Shors, 33 – Siberiano Tártaros, 34 – Buriates, 35 – Chukchis, 36 – Dungans, 37 – Evenks do Extremo Oriente, 38 – Evens de Kamchatka, 39 – Evens de Okhotsk costa, 40 – Cazaques, 41 – Kirghiz, 42 – Koryaks, 43 – Nanais, 44 – Tajiks, 45 – Turkmens, 46 – Uyghurs, 47 – Uzbeques, 48 – Iacutos do Extremo Oriente. Painel b: a parcela dos principais componentes para as populações deste estudo e para as populações utilizadas no desenvolvimento/validação da HIris-plex-S. As populações de HIris-plex são de preto. Cores refere-se a conjuntos de dados regionais presentes no Painel

amostras de DNA a partir dessas 300 pessoas foram seqüenciados utilizando especialmente projetado exome de captura, que incluía, além do padrão Roche exome de captura, o intrônicos e intergenic regiões conhecido para levar a pigmentação relacionados a sítios polimórficos (ver Métodos para obter detalhes).

O conjunto de dados combinado incluía chamadas fenotípicas e chamadas genotípicas para todos os indivíduos. As chamadas fenotípicas incluíram cinco categorias da escuridão do cabelo, três categorias da vermelhidão do cabelo, e cinco categorias da escuridão do olho. As chamadas genotípicas incluíam genótipos de todos os locais polimórficos identificados dentro dos 53 genes e regiões intergénicas conhecidas por estarem envolvidas na pigmentação olho/cabelo. As análises a jusante foram realizadas nos subconjuntos deste conjunto de dados combinado.

Validating the precision of HIrisPlex on north Eurasian populations

We started with estimating the precision of standard eye/hair prediction system in the newly phenotiped populations. A partir do conjunto combinado de dados extraímos as chamadas fenotípicas e genotípicas para 24 SNPs incluídas no HIrisPlex-S. então previmos a cor do olho e do cabelo de genótipos usando a ferramenta online do HIrisPlex-S e comparamos os fenótipos previstos com os fenótipos reais (Tabela 1). A tabela 2 apresenta os resultados para a previsão da cor dos olhos em diferentes metapopulações (excluindo o norte da Ásia, onde a frequência dos olhos de luz é baixa). Descobrimos (Quadro 1, Ficheiro adicional 1) que o valor da AUC no conjunto de dados Euroasianos do Norte é apenas ligeiramente inferior ao dos europeus ocidentais/centrais (especialmente para os cabelos castanhos e ruivos). No entanto, quando analisamos os resultados para cada região separadamente (Tabela 2), descobrimos que o desempenho do painel HIrisPlex-S para a previsão da cor dos olhos é menor para indivíduos da região do Cáucaso (valores de AUC são 0,83 e 0,78, para olhos azuis e escuros). Em especial, a recolha de olhos azuis no Cáucaso é significativamente inferior em comparação com as outras regiões do Norte da Eurásia – apenas 47% (ficheiro adicional 2). Pode indicar que os genes das vias metabólicas de pigmentação nas populações do Cáucaso têm um espectro alélico um pouco diferente do da Europa. Ao particionar o conjunto de dados de acordo com a classe fenotípica (Tabela 1 e Tabela 2), descobrimos que prever os olhos azul e castanho na população russa é muito menos eficaz. Em particular, os sistemas HirisPlex-S tendem a classificar mal os olhos azuis como Castanhos.

Tabela 1, A AUC e a precisão da cor dos olhos predição usando HirisPlex-sistema S e do Norte da Eurásia conjunto de SNPs para o pool do Norte da Eurásia conjunto de dados
A tabela 2, A AUC e a precisão da cor dos olhos predição usando HirisPlex-S conjunto de SNPs para o regional Norte da Eurásia conjuntos de dados

Olhos e cabelos cor de previsão no norte da Eurásia populações: procura de novo informativo alelos. O fluxo de trabalho geral

os nossos dados genéticos sobre os indivíduos fenotipados incluíram a sequenciação completa dos genes associados à pigmentação e regiões intergênicas relevantes, em vez de apenas SNPs anteriormente conhecidos. Assim, fomos potencialmente capazes de revelar os novos alelos informativos nos genes conhecidos. No total, chamamos 117,012 SNPs em 53 genes e regiões intergênicas.

para a predição da cor ocular realizamos algoritmos de seleção de recursos, a fim de obter novos alelos informativos para as populações da Eurásia do Norte para 4 conjuntos de dados:

  1. Pool Norte da Eurásia conjunto de dados

  2. Rússia Europeia

  3. Cáucaso

  4. Oeste da Sibéria

Para a cor do cabelo previsão usamos 5 conjuntos de dados:

  1. Pool Norte da Eurásia conjunto de dados

  2. Rússia Europeia

  3. Cáucaso

  4. Oeste da Sibéria

  5. Ásia do Norte

Norte Ásia conjunto de dados foi analisada somente para a cor do cabelo de previsão devido ao fato de esta região é observada variação na cor do cabelo, enquanto que para a cor dos olhos não há variação.

cada conjunto de dados foi dividido em 60:40 rácio em amostras de treino e teste, preservando a percentagem de amostras para cada classe. Para o conjunto de dados agrupados, controlámos que as amostras de diferentes regiões incluídas no conjunto de dados agrupados foram divididas na mesma proporção (60:40) para evitar distorções relacionadas com a região.o processo de selecção das características foi realizado no conjunto de dados de formação (figura S2). O procedimento de seleção de recursos consistiu na aplicação de três algoritmos:

  1. 1)

    f_regression

  2. 2)

    mutual_info_regression

  3. 3)

    Laço de seleção de características com diferentes alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)

Quando se analisa a distribuição de F a pontuação (de f_regression) e MI (a partir de mutual_info_regression) os limites para os mais eficazes recursos com maiores pontuações foram definidos para cada conjunto de dados individualmente. Ao realizar a seleção de recurso Lasso testamos diferentes escolhas do parâmetro Alfa. Para cada valor de alfa calculamos pontuações r2 no conjunto de dados de formação para subconjuntos correspondentes de PNS que têm coeficientes não-zero.

entre estes subconjuntos selecionamos os mais importantes de acordo com as pontuações R2 obtidas para cada conjunto de dados individualmente.

com base nos resultados de três algoritmos de seleção de recursos, todos os SNPs selecionados foram combinados nas listas SNPs superiores para cada conjunto de dados.

em cada lista Top SNPs, selecionamos SNPs que têm o melhor poder preditivo. Estes SNPs formaram as melhores listas SNPs que usávamos para construir um classificador. Para selecionar o melhor SNPs, foi utilizada a mesma escala como HIrisPlex-S classificator:

  1. azul, intermediário e marrom para olhos cor

  2. vermelho, loiro, castanho e escuro para o cabelo de cor

Nós consideradas essas classes independentes uns dos outros e tentou construir o classificador com melhor potência e o menor conjunto de SNPs.

usámos sistemas de classificação separados para predição de cores de olho e cabelo para estimar a importância e o poder de previsão de cada SNP, a fim de reduzir as listas SNPs.

o desempenho das melhores características selecionadas foi validado no conjunto de dados de teste. Para avaliar a qualidade do modelo calculámos a pontuação R2 (coeficiente de determinação da função da pontuação de regressão) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), a pontuação AUC, a precisão, a recolha e a precisão métricas.

predição da cor ocular

identificando os SNPs de topo no conjunto de dados eurasianos do Norte

para identificar os SNPs de topo associados à cor do olho na nossa amostra, aplicámos três algoritmos: f_regression (pontuação F), mutual_info_regression (MI), e selecção de características Lasso com diferentes Alfas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).

analisámos as distribuições de pontuação F (f_regression) e MI (mutual_info_regression) pelas amostras e seleccionámos os 30 Melhores SNPs com as pontuações mais elevadas.

de acordo com os resultados da seleção de recurso Lasso decidimos incluir no topo da lista SNPs os mais cruciais – os que têm coeficientes não zero para Alfa = 0.5 (2 SNPs para o conjunto de dados “cor do olho” e 2 SNPs para o conjunto de dados “cor do cabelo”) e alfa = 0.2 (8 SNPs para’ eye color ‘dataset e 8 SNPs para’ hair color ‘ dataset) – estes SNPs carregam o poder de previsão mais de acordo com a distribuição de valores de pontuação r2 sobre diferentes alphas. Também incluímos conjuntos SNP para alphas 0.1, 0.01 e 0.005.

a lista final top SNPs consistia de 256 SNPs (arquivo adicional 3).

estreitando a lista de SNPs e classificador de construção para a cor dos olhos com base nele

atribuímos a cada SNP uma pontuação de 0 a 3. A pontuação 3 é atribuída apenas aos SNPs da lista SNPs de topo do conjunto de dados, devido aos resultados obtidos para esse conjunto de dados serem muito mais robustos do que para os conjuntos de dados regionais (os tamanhos das amostras para os conjuntos de dados regionais estão presentes no ficheiro adicional 4). A pontuação 3 é atribuída a SNPs que estão no top 5 com maior pontuação F ou têm coeficientes mais ou igual a 0,1 em valor absoluto em modelos Lasso para alpha 0.2 ou têm coeficientes não-zero em modelos Lasso para alpha 0.5. Para a amostra combinada, a pontuação 2 é atribuída aos SNPs que estão no top 10 com pontuações mais elevadas de F ou MI ou que têm coeficientes não-zero no modelo Lasso para alpha 0.2. A pontuação 1 é atribuída a SNPs que têm coeficientes maiores ou iguais de 0,1 no modelo Lasso para Alfa 0.005. A todos os outros SNPs atribuímos a pontuação 0. Todos os 36 SNPs com pontuações não-zero formaram a melhor lista SNPs e foram usados para o classificador.

os cinco SNPs tiveram a pontuação mais elevada 3. Dois deles eram bem conhecidos SNPs causadores de cor ocular (rs1129038 e rs12913832), enquanto os três restantes não foram relatados anteriormente como alelos preditivos de cor ocular poderosa.

Variação dos melhores SNPs lista em regiões geográficas

toda A análise realizada para o pool do Norte da Eurásia conjunto de dados foi repetido para as populações dos três seguintes regiões separadamente: Europeia, Rússia, Cáucaso, Oeste da Sibéria. Para conjuntos de dados regionais, a pontuação 2 foi atribuída a SNPs que estavam no top 5 com maior pontuação F E MI ou tinham coeficientes mais ou igual a 0.1 in absolute value in Lasso model for alpha 0.5 or non-zero coefficients in Lasso model for alpha 0.7. A pontuação 1 foi atribuída a SNPs que estavam no top 6 com maior pontuação F E MI ou têm coeficientes não-zero em modelos Lasso para alpha 0.7 e 0.5. O arquivo adicional 5 apresenta os melhores conjuntos SNPs resultantes para todas as três regiões. A comparação entre as listas regionais e a lista para a amostra agrupada está presente no ficheiro adicional 6. Em geral, o conjunto de melhores PNS é estável em todas as regiões: os PNS com as pontuações mais altas estão incluídos na maioria das listas, enquanto entre os outros PNS existem ambos, identificados em cada região e região específica. É necessário um estudo adicional sobre as amostras fenotipadas adicionais para replicar o significado do SNPs específico da região.

a lista SNPs resultante da fusão foi classificada por Pontuação total (como soma de todas as pontuações para 4 amostras: Cáucaso, Sibéria Ocidental, Rússia Europeia, e agrupada) (ficheiro adicional 6). O Top 7 SNPs tem a maior pontuação total e ocorreu em mais de um conjunto de dados, o que é uma confirmação adicional de que estes SNPs têm um forte poder preditivo (Tabela 3). Dois desses SNPs (rs1129038 e rs12913832) já estão incluídos no painel HIrisPlex-S, enquanto outros cinco SNPs são novos candidatos para a previsão da cor dos olhos nas populações da Eurásia do Norte. Estimamos as frequências desses cinco SNPs nas populações da Eurásia do Norte (arquivo adicional 7). Cada SNP foi detectado com frequências polimórficas em cada população regional, por isso estes SNPs são comuns e não raros.

Quadro 3, A lista das 36 melhores do Norte da Eurásia SNPs para a cor dos olhos de predição

norte da Eurásia SNPs de desempenho

estimamos o desempenho dos SNPs que demonstrou o maior poder preditivo em nosso Norte da Eurásia exemplo. O conjunto mínimo incluiu 7 SNPs, dois dos quais foram anteriormente incluídos no Painel Da HIrisPlex-S. O conjunto ideal incluía 36 SNPs que receberam as pontuações mais elevadas no conjunto de dados euroasianos do Norte. Testámos o desempenho de classificação de ambos os conjuntos de SNPs da Eurásia do Norte. A figura 2 apresenta as curvas ROC e os valores da AUC para a previsão de três cores oculares. A precisão de 7 SNPs set é quase tão eficaz quanto a previsão baseada no 41 HIrisPlex – s SNPs, enquanto o conjunto de 36 SNPs do Norte Eurasian supera ligeiramente 41 HIrisPlex – s SNPs em nossa amostra(Fig. 2, Quadro 1).

Fig. 2
figure2

ROC-AUC curves for eye color prediction on North Eurasian dataset for three-grade scale. Painel a: resultados do conjunto 7 SNPs. Painel b: resultados dos 36 SNPs

predição da cor do cabelo

realizamos a mesma análise de seleção de recursos para encontrar e avaliar a lista Top SNPs para a predição da cor do cabelo para amostra conjunta da Eurásia do Norte, que inclui populações das seguintes regiões: Cáucaso, Rússia Europeia, Oeste da Sibéria e Norte da Ásia.seleccionámos os 322 melhores SNPs e reduzimos a lista para 33 melhores SNPs que têm o desempenho mais forte para a classificação de 4 graus.: vermelho, Louro, Castanho e cor de cabelo escuro, a mesma escala que o HIrisPlex-S (arquivo adicional 8).

Nós atribuído significado pontuações para selecionar o conjunto mínimo de SNPs na seguinte forma:

  1. 1)

    A pontuação 3 foi atribuído a SNPs que estão no ” top 5 com as mais altas F ou MI pontuações ou têm coeficientes mais do que 0,05, em valor absoluto, na Lasso modelos para alpha 0,2 ou zero coeficientes de Laço modelos para alpha 0.5

  2. 2)

    A pontuação 2 foi atribuído ao SNPs no top 10 com o mais alto F ou MI escores

  3. 3)

    O resto SNPs de 33 melhores SNPs lista têm a pontuação 1

Nós fomos capazes de detectar o mais poderoso de 11 de SNPs que tem a pontuação mais alta (3), três deles estão incluídas no HIrisPlex-S (painel de rs16891982, rs12913832, e rs1129038).

verificámos o desempenho do classificador com base em 11 conjuntos SNPs e tentámos estimar a sua capacidade de distinguir entre 4 classes independentes (o mesmo que para HIrisPlex-s): vermelho, loiro, castanho e cabelo escuro (ficheiro adicional 9).

adicionalmente, nós tentamos juntar 2 classes de cor do cabelo – louro e castanho – porque o algoritmo não tem poder suficiente para distingui-los, e verificou o desempenho de SNPs selecionados para a escala de 3 graus. Como podemos ver pelos resultados (Fig. 3) o desempenho classificador melhorou significativamente para ambos os conjuntos de SNPs: os mais poderosos 11 SNPs e 33 melhores SNPs.

Fig. 3
figure3

A. ROC-AUC curves for hair color prediction on North Eurasian dataset for the three-grade scale. Painel a: resultados do conjunto 11 SNPs. Painel b: resultados do conjunto de 33 SNPs

o novo SNPs potencialmente informativo

a nossa análise identificou cinco novos SNPs que demonstraram o elevado poder de Previsão para a cor do olho. Estes PNS foram revelados na amostra conjunta da Eurásia do Norte e foram replicados nas subamostras mais regionais. Quatro destes SNPs estão localizados no gene HERC2, e um (rs4812447) está na região intergênica. O gene HERC2 (domínio hect e RLD contendo E3 ubiquitina proteína Ligase 2) pertence à família de genes HERC que codifica um grupo de proteínas invulgarmente grandes, que contêm múltiplos domínios estruturais. As variações genéticas deste gene estão associadas à variabilidade da pigmentação da pele/cabelo/olhos .

Limitations of the used approach

we analyzed the performance of the known pigmentation predictive SNPs and looked for the new SNPs in previously unstudied populations from different geographic areas. Esta abordagem regional permitiu identificar os SNPs que são informativos para as populações específicas, mas fez com que os tamanhos das amostras de cada região bastante limitado. Portanto, não fomos capazes de subdividir nossa amostra no conjunto de dados de treinamento e no conjunto de dados de validação – isso resultaria em reduzir o tamanho das amostras para números não permitindo a análise estatisticamente significativa. Portanto, nossa abordagem nos forçou a usar o mesmo conjunto de dados para a descoberta do SNPs, construindo o modelo de classificação, e também para a validação, o que pode resultar em sobrestimação de previsão. Portanto, o desempenho dos nossos SNPs deve ser considerado como uma estimativa superior, e os SNPs identificados como candidatos até verificação sobre a amostra independente nos estudos futuros. Embora a estabilidade dos SNPs preditivos da cor do olho superior nas regiões geográficas verifique parcialmente a eficácia dos SNPs preditivos recentemente identificados.

Related Posts

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *