조립 dataset
우리는 phenotyped300 개에서 48 개의 인구는 러시아와 이웃 나라를 식별하여 그들의 눈과 머리 색상입니다. 독립적인 형질에 의해 세 가지 전문가들과 사진의 가용성에 대한 재 만든 형질 신뢰할 수 있고 재생 가능합니다. 인구는 4 개의 지역 데이터 세트로 그룹화되었습니다: 유럽 러시아,서부 시베리아,코카서스 및 북아시아;무화과. 1a 는 샘플링 위치 및 그룹화를 지역 데이터 세트로 제공합니다. 샘플링 된 넓은 지역에 대응하여,지역 메타 포퓰레이션은 대조적 인 유전 적 배경을 가지고있다. 우리는이 연구 결과를 설명하기 위해이 연구에 포함 된 집단의 PC 분석을 수행했습니다(그림 1). 1b). 우리는 인구에 있는 HIris-plex-의해 개발되었 및 검증(네덜란드,폴란드,아일랜드,및 그리스어)를 차지하는 좁은 지역에”western”극단의 PC 줄거리면서,집단에 존재하는 우리의 연구는 특히 동북아시아,코카서스 및 웨스트베리아는 pronouncedly 다른 서쪽에서 유럽인과 다른 하나에서. 따라서 모든 다운 스트림 분석은 각 지역 데이터 세트와 풀링 된 데이터 세트에 대해 수행되었습니다.
DNA 샘플에서 이러한 300 개인 된 시퀀싱하여 특별히 설계되었 exome 캡처를 포함한 표준 로슈 exome 캡처,intronic 및 intergenic 지역 것으로 알려져 있 염색과 관련된 다형성이트(는 방법을 참조하십시오에 대한 상세정보).
결합 된 데이터 세트에는 모든 개인에 대한 표현형 호출과 유전형 호출이 포함되었습니다. 표현형 호출에는 5 가지 범주의 머리 어둠,3 가지 범주의 머리 홍조 및 5 가지 범주의 눈 어둠이 포함되었습니다. Genotypic 전화를 포함 genotypes 의 모든 다형 사이트 식별에서 53 유전자 intergenic 지역에 참여하는 것으로 알려진에서 눈/머리를 염색. 다운 스트림 분석은이 결합 된 데이터 세트의 하위 집합에서 수행되었습니다.
유효성을 확인하는 정밀도의 HIrisPlex 에 북부 유라시아 인구
우리가 시작으로 추정하는 정밀도의 표준 눈/헤 예측 시스템에서 새로 phenotyped 인구입니다. 에서 데이터세트가 우리를 추출한 phenotypic 및 유전자형에 대한 호출 24Snp 에 포함되어 있 HIrisPlex-S. 그런 다음 우리는 예측은 눈 머리 색깔에서 유전자형을 사용하여 온라인 HIrisPlex-S 도구에 비해 예측된 고기로 실제 고기(표 1). 표 2 는 다른 metapopulations(가벼운 눈의 빈도가 낮은 북아시아 제외)에서 눈 색깔 예측에 대한 결과를 제시합니다. 우리는 발견합니다(표 1,추가적인 파일을 1)는 AUC 에 값을 풀 북부 유라시아 데이터 집합이 보다 약간 낮은 서쪽에서는 중앙 유럽(특히 갈색 빨강 머리). 그러나 때,우리는 분석 결과를 위해 각 지역 별도로(Table2),우리가 발견의 성능 HIrisPlex-S 패널을 예측하는 눈 색상은 더 낮은 개인을 위해서 코카서스 지역(AUC 값은 0.83 및 0.78,파란색과 검은 눈). 특히 코카서스의 파란 눈에 대한 리콜은 다른 북 유라시아 지역과 비교하여 현저히 낮습니다-단지 47%(추가 파일 2). 그것은 나타낼 수 있는 유전자의 염색을 대사 경로에서 코카서스 인구를 수행 르 스펙트럼에서 다소 차이는 유럽에서. 할 때 분할 데이터 집합에 따라 phenotypic 클래스(표 1 및 표 2)우리는 발견하는 예측하 모두,파란색과 브라운 눈에 러시아의 인구는 훨씬 효과적입니다. 특히,HirisPlex-S 시스템은 파란 눈을 갈색으로 잘못 분류하는 경향이 있습니다.
눈 머리 색깔을 예측에서 북부 유라시아 인구:검색에 대한 새로운 유익한 대립. 일반적인 워크플로
우리의 유전자에 대한 데이터 phenotyped 개인을 포함하는 전체 시퀀싱 염색 관련 유전자와 관련 intergenic 지역보다 이전에 알려진 Snp 니다. 따라서 우리는 잠재적으로 알려진 유전자에서 새로운 정보 대립 유전자를 밝힐 수있었습니다. 총 53 개의 유전자와 유전자 간 영역에서 117,012 개의 Snp 를 호출했습니다.
을 위해 눈에 컬러 예측이 우리 수행되는 기능 선택 알고리즘을 얻기 위해서는 새로운 유익한 대립에 대한 노아는 인구는 4datasets:
-
풀 북부 유라시아 데이터 집
-
유럽 러시아
-
코
-
웨스트베리아
머리에 대한 컬러 예측 우리 사용되는 5 데이터 집합:
-
풀 북부 유라시아 데이터 집
-
유럽 러시아
-
코
-
웨스트베리아
-
북아시아
북 아시아 데이터 분석만을 위해 머리 색깔을 예측 때문에 사실은 이 지역이 있는 관찰된 변화에 머리 색상을 위해 눈 색깔 없이 그러한 변형입니다.
각 데이터 세트는 각 클래스에 대한 샘플의 비율을 보존하여 60:40 비율로 교육 및 테스트 샘플로 나누었습니다. 한 풀링 데이터 집 우리는 통제되는 견본서 다른 지역에 포함된 풀 데이터 집합을 분할에서 동일한 비율(60:40)을 방지 지역의 관련 편견입니다.
훈련 데이터 세트에서 기능 선택 절차가 수행되었습니다(그림 S2). 기능 선택 절차는 세 가지 알고리즘을 적용하는 것으로 구성되었습니다:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
올가미기능 선택과 다른 알파(0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
을 분석할 때의 배급 F 점수(f_regression) 고의 경우(에서 mutual_info_regression)임계값에 대한 가장 효과적인 특징으로 가장 높은 점수를 설정되었는 각 데이터 집합니다. 올가미 기능 선택을 수행 할 때 알파 매개 변수의 다른 선택을 테스트했습니다. 에 대한 각각의 가치는 알파 우리는 계산 r2 점수에 훈련 데이터 집합에 대한 해당 부분 집합의 Snp 이 있는지 아닌지는 계수.
이러한 하위 집합 중에서 각 데이터 집합에 대해 얻은 r2 점수에 따라 가장 중요한 것을 개별적으로 선택했습니다.
결과에 따라 세 가지에서 알고리즘의 기능 선택 선택한 모든 Snp 결합되었에서 최고 Snp 에 대한 목록을 각각합니다.
각 상위 Snp 목록에서 가장 좋은 예측 능력을 가진 Snp 를 선택했습니다. 이 Snp 는 우리가 분류자를 구축하는 데 사용되는 최고의 Snp 목록을 형성했습니다. 선택 최 Snp,우리가 사용되는 동일한 규모로 HIrisPlex-S classificator:
-
블루,중급 및 브라운 컬러로 눈
-
red,발 브라운과 어두운 머리에 대한 컬러
우리는 이러한 클래스는 독립적인에서 서로를 구축하기 위해 노력하는 분류기 최고의 힘과 가장 작은 Snp 설정합니다.
우리는 별도의 사용 순위 시스템을 위해 눈과 머리 색깔을 예측하는 견적 중요성과 예측력의 각 SNP 하기 위해 좁혀 Snp 목록입니다.
테스트 데이터 세트에서 가장 잘 선택된 기능의 성능이 검증되었습니다. 의 품질을 평가하는 모델을 우리는 계산 R2 점수(계수 결정의 회귀 점수 기능)(https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html),AUC 점수를,정밀도,기억 및 정확한 지표입니다.
아 컬러 예측
을 식별하기 위 Snp 에서 풀 북부 유라시아 데이터 집
를 식별하는 최고 Snp 관련된 눈과 색상에서 우리의 샘플을 적용하는 세 알고리즘:f_regression(F 점수),mutual_info_regression(의 경우),그리고 올가미기능 선택과 다른 알파(0 입니다.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
우리는 분석 F(f_regression)고의 경우(mutual_info_regression)점수 배포판에서 샘플을 선택 최 30Snp 가장 높은 점수가 있습니다.
결과에 따르면 올가미에서 기능 선택 우리는 결정에 포함하는 최고 Snp 목록이 가장 중요한 사람들을 비로 계수를 위한 알파=0.5(2Snp 위해’눈 색상’데이터 집합이고 2Snp 를 위한’머리 색상’데이터 집합)및 알파=0.2(8Snp 위해’눈 색상’데이터 집합과 8Snp 를 위한’머리 색상’데이터 집합)-이 Snp 수행하는 가장 예측력에 따라 r2 점수 값을 배 이상의 다른 알파. 우리는 또한 alphas0.1,0.01 및 0.005 에 대한 SNP 세트를 포함 시켰습니다.
최종 상위 Snp 목록은 256 개의 Snp(추가 파일 3)로 구성되었습니다.
Snp 목록을 좁히고이를 기반으로 눈 색깔에 대한 분류자를 구축
우리는 각 SNP 에 0 에서 3 까지의 점수를 할당했습니다. 점수 3 는 할당을 위한 Snp 에서 풀 데이터 집합 최고 Snp 목록 때문에 만들어진 결과에 대한 데이터베이스보다 훨씬 더 강력해 지역 데이터 집합(샘플 크기 위해 지역 데이터세트에서 존재하는 파일을 추가 4). 점수 3 에 할당된 Snp 에 있는 최고 5 가장 높은 F 점수 또는 계수에 더 많거나 같 0.1 에서 절대값에서 올가미 모델에 대한 알파 0.2 또는 non-zero 계수 올가미 모델에 대한 알파 0.5. 한 풀링 샘플 2 점수가 할당되 Snp 에 있는 최고 10 가장 높은 F 의 경우 또는 점수 또는 non-zero 계수 올가미 모델에 대한 알파 0.2. 점수 1 은 알파 0.005 에 대한 올가미 모델에서 0.1 보다 크거나 같은 계수를 갖는 Snp 에 할당됩니다. 다른 모든 Snp 에 점수 0 을 할당했습니다. 0 이 아닌 점수를 가진 36 개의 Snp 는 모두 최고의 Snp 목록을 형성하고 분류기에 사용되었습니다.
5 개의 Snp 가 가장 높은 점수 3 을 가졌습니다. 두 개의 그들의 잘 알려진 눈을 컬러를 일으키는 Snp(rs1129038 및 rs12913832)동안 나머지 세가지 이전에 보고되었으로 강력한 눈 컬러 예측 대립.
의 변형이 최고의 Snp 목록에 걸쳐 지역
전체 분석 수행을 위한 합동 북부 유라시아 데이터가 반복되었습에 대한 집단에서 다음 세 가지 별도로 지역:유럽,러시아,코카서스,웨스트베리아. 지역 데이터 세트의 경우 점수 2 는 F 및 MI 점수가 가장 높은 상위 5 위 안에 있거나 계수가 0 보다 많거나 같은 Snp 에 할당되었습니다.알파 0.5 에 대한 올가미 모델의 절대 값에서 1 또는 알파 0.7 에 대한 올가미 모델의 0 이 아닌 계수. 점수 1 은 알파 0.7 및 0.5 에 대한 올가미 모델에서 가장 높은 F 및 MI 점수로 상위 6 에 있거나 계수가 0 이 아닌 계수를 갖는 Snp 에 할당되었습니다. 추가 파일 5 는 세 영역 모두에 대해 결과적인 최상의 SNPs 세트를 제공합니다. 풀링 된 샘플에 대한 지역 목록과 목록의 비교는 추가 파일 6 에 있습니다. 일반적으로 최고의 Snp 세트는 지역 전체에서 안정적입니다: Snp 가장 높은 점수에 포함되어 있는 대부분의 목록하는 동안,다른 중 Snp 모두 있는,모든 지역 내에서 식별 및 지역별로 다릅니다. 추가 표현형 샘플에 대한 추가 연구는 지역 별 Snp 의 중요성을 복제 할 필요가있다.
병합된 Snp 목록 선정에 의해 총 점수(로 합의 모든 점수를 위한 4 개의 샘플을:카프카스,웨스트베리아,유럽,러시아 및 풀)(추가 파일 6). Top7Snp 가장 높은 총 점수 이상에서 발생 하나의 데이터세트에 추가 확인하는 이러한 Snp 강력한 예측 능력을(표 3). 두 사람의 Snp(rs1129038 및 rs12913832)은 이미 포함되어 있 HIrisPlex-S 판하는 동안,다른 다섯 Snp 는 새로운 후보는 눈을 위한 색깔을 예측에서 북부 유라시아 인구입니다. 우리는 북 유라시아 인구에서이 다섯 가지 Snp 의 빈도를 추정했습니다(추가 파일 7). 각 SNP 는 모든 지역 인구에서 다형성 빈도로 검출되었으므로 이러한 Snp 는 희귀 한 것보다 일반적입니다.
북부 유라시아 Snp 성능을 설정
우리는 예상된 성능의 Snp 는 시연장 예측 능력을 우리의 북부 유라시아 샘플입니다. 최소한의 세트에는 7 개의 Snp 가 포함되었으며 그 중 2 개는 이전에 HIrisPlex-S 패널에 포함되었습니다. 최적의 세트에는 풀링 된 북 유라시아 데이터 세트에서 가장 높은 점수를받은 36 개의 Snp 가 포함되었습니다. 우리는 북 유라시아 Snp 의 두 세트의 분류 성능을 테스트했습니다. 그림 2 는 세 가지 눈 색깔의 예측에 대한 ROC 곡선과 AUC 점수를 제시합니다. 의 정확도 7Snp 설정하는 것은 거의 효과적으로 예측에 기반 41HIrisPlex-S Snp 하면서,세트의 36 북부 유라시아 Snp 약간의 성능이 뛰어나 41HIrisPlex-S Snp 에서 우리의 견본(Fig. 2,표 1).
머리 색깔을 예측
우리는 같은 수행 기능 선택한 분석을 찾을 평가하고 최 Snp 목록에 대한 머리 색깔에 대한 예측 풀 북부 유라시아 샘플을 포함하는 집단에서 다음과 같은 지역:스카,유럽,러시아 웨스트베리아와 북아시아.
우리는 상위 322 개의 Snp 를 선택하고 4 등급 분류에 대해 가장 강력한 성능을 가진 33 개의 best Snp 로 목록을 좁혔습니다: 빨강,금발,갈색 및 검은 머리 색깔,HIrisPlex-S(추가 파일 8)와 같은 눈금.
우리는 할당 중요성이 점수를 선택하는 최소한의 Snp 에서는 다음과 같은 방법으로.
- 1)
점수 3 에 할당되었는 Snp 에 있는 최고 5 가장 높은 F 의 경우 또는 점수 또는 계수보다 더 많은 0.05 에서 절대값에서 올가미 모델에 대한 알파 0.2 또는 non-zero 계수 올가미 모델에 대한 알파 0.5
- 2)
2 점수에 할당되었는 Snp 에서 상위 10 가장 높은 F 의 경우 또는 점수
- 3)
나머지 Snp 의 33 최 Snp 목록 점수 1
우리는 할 수 있었을 감지하는 가장 강력한 11Snp 있는 가장 높은 점수를(3), 그 세 가지에 포함되어 있 HIrisPlex-S 패널(rs16891982,rs12913832 및 rs1129038).
리 성능의 분류에 따라 11Snp 설정 시도를 예측하는 능력을 구별 4 개의 독립적인 클래스(동일한 HIrisPlex-S):red,금발,갈색,어두운 머리(추가 파일 9).
또한 우리는 노력을 병합하는 2 개의 클래스의 머리 색상과 금발 브라운-기 때문에 알고리즘을 충분히 갖고 있지 않은 전원을 구분하고,그들을 확인 성능의 선택 Snp3 학년 규모입니다. 우리가 결과에서 볼 수 있듯이(그림 2). 3)분류기 성능은 두 세트의 Snp 에 대해 크게 향상되었습니다:가장 강력한 11 개의 Snp 와 33 개의 최고의 Snp.
새로운 잠재적으로 유익하 Snp
우리의 분석을 식별 다섯 개의 새로운 Snp 는 입증 고 예측력을 위해 눈 색깔이 있습니다. 이 Snp 는 풀링 된 북 유라시아 샘플에서 밝혀졌으며 가장 지역적인 하위 샘플에서 복제되었습니다. 이 Snp 중 4 개는 HERC2 유전자에 위치하고 1 개(rs4812447)는 유전자 간 영역에 있습니다. HERC2(HECT 및 RLD 도메인을 포함하는 E3Ubiquitin 단백질 리가 2)유전자 속 herc 은 유전자 가족으로 인코딩하는 그룹의 비정상적으로 큰 단백질을 포함하는 여러 구조상 도메인이 있습니다. 이 유전자의 유전 적 변이는 피부/모발/눈 색소 변동성과 관련이 있습니다.
의 제한으로 사용되는 방법
우리는 우리의 성능을 분석하는 알려진 색소 침착 예측 Snp 보았을 위한 새로운 Snp 에서 이전에 unstudied 구에서는 다른 지리적 영역에 있습니다. 이 지역-기반 접근이 허용되는 식별 Snp 는 유익한 정보를 위해 특정 집단지로 만든 샘플 크기 에서 각 지역 아주 제한됩니다. 따라서,우리는 수 없었던 세분화 샘플로 훈련 데이터 집합 및 검증 데이터 집합이 결과를 줄이는 샘플 크기의 숫자를 허용하지 않는 통계적으로 중요한 분석입니다. 따라서,우리의 접근 방식은 우리를 강제하여 동일하게 사용에 대한 데이터 집합 Snp 검색 건물의 분류,모델과도에 대한 검증할 수 있는 결과를 예측을 쉽게 확인. 따라서,성능 우리의 Snp 으로 간주되어야 상을 추정하고,식별 Snp 로 후보는 것까지 확인에 독립적인 샘플에서 미래의 연구이다. 지리적 영역에 걸친 상안색 예측 Snp 의 안정성은 새로 확인 된 예측 Snp 의 효과를 부분적으로 검증하지만.