- Zusammenstellung des Datensatzes
- Validierung der Präzision von HIrisPlex auf nordeurasische Populationen
- Vorhersage der Augen- und Haarfarbe in nordeurasischen Populationen: Suche nach neuen informativen Allelen. Der allgemeine Arbeitsablauf
- Vorhersage der Augenfarbe
- Identifizieren der Top-SNPs im gepoolten nordeurasischen Datensatz
- Eingrenzen der Liste der SNPs und Erstellen eines Klassifikators für die Augenfarbe basierend darauf
- Variation der Liste der besten SNPs über geografische Regionen hinweg
- Die Leistung der nordeurasischen SNPs
- Haarfarbvorhersage
- Die neuen potenziell informativen SNPs
- Einschränkungen des verwendeten Ansatzes
Zusammenstellung des Datensatzes
Wir haben 300 Personen aus 48 Populationen Russlands und der Nachbarländer phänotypisiert, indem wir ihre Augen- und Haarfarben identifizierten. Die unabhängige Phänotypisierung durch drei Experten und die Verfügbarkeit von Fotos zur erneuten Überprüfung machten die Phänotypisierung zuverlässig und reproduzierbar. Die Populationen wurden in vier regionale Datensätze eingeteilt: Europäisches Russland, Westsibirien, Kaukasus und Nordasien; Abb. 1a zeigt die Stichprobenorte und Gruppierung in die regionalen Datensätze. Entsprechend der großflächigen Stichprobe weisen die regionalen Metapopulationen einen kontrastierenden genetischen Hintergrund auf. Wir führten die PC-Analyse der in diese Studie einbezogenen Populationen durch, um diese Ergebnisse zu veranschaulichen (Abb. 1b). Wir stellen fest, dass die Populationen, auf denen der HIris-plex-S entwickelt und validiert wurde (Niederländisch, Polnisch, irisch und Griechisch), die schmale Zone am „westlichen“ Ende des PC-Plots besetzen, während sich die in unserer Studie vorhandenen Populationen, insbesondere Nordasien, Kaukasus und Westsibirien, stark von Westeuropäern und voneinander unterscheiden. Daher wurden alle nachgelagerten Analysen für jeden regionalen Datensatz und für den gepoolten Datensatz durchgeführt.
DNA-Proben dieser 300 Individuen wurden mit dem speziell entwickelten Exom-Capture sequenziert, das zusätzlich zum Standard-Roche-Exom-Capture die intronischen und intergenen Regionen enthielt, von denen bekannt ist, dass sie pigmentbezogene polymorphe Stellen tragen (siehe Methoden für Details).
Der kombinierte Datensatz umfasste phänotypische Aufrufe und genotypische Aufrufe für alle Individuen. Phänotypische Aufrufe umfassten fünf Kategorien der Haardunkelheit, drei Kategorien der Haarrötung und fünf Kategorien der Augendunkelheit. Genotypische Aufrufe umfassten Genotypen aller polymorphen Stellen, die innerhalb der 53 Gene und intergenen Regionen identifiziert wurden, von denen bekannt ist, dass sie an der Augen- / Haarpigmentierung beteiligt sind. Die nachgelagerten Analysen wurden an den Teilmengen dieses kombinierten Datensatzes durchgeführt.
Validierung der Präzision von HIrisPlex auf nordeurasische Populationen
Wir begannen mit der Schätzung der Präzision des Standard-Augen- / Haarvorhersagesystems in den neu phänotypisierten Populationen. Aus dem kombinierten Datensatz extrahierten wir die phänotypischen und genotypischen Aufrufe für 24 SNPs, die im HIrisPlex-S enthalten sind. Dann sagten wir die Augen- und Haarfarbe von Genotypen mit dem Online-HIrisPlex-S-Tool voraus und verglichen die vorhergesagten Phänotypen mit den realen Phänotypen (Tabelle 1). Tabelle 2 zeigt die Ergebnisse für die Vorhersage der Augenfarbe in verschiedenen Metapopulationen (mit Ausnahme von Nordasien, wo die Häufigkeit heller Augen gering ist). Wir fanden heraus (Tabelle 1, Zusätzliche Datei 1), dass der AUC-Wert im gepoolten nordeurasischen Datensatz nur geringfügig niedriger ist als bei den West- / Mitteleuropäern (insbesondere für die braunen und roten Haare). Als wir jedoch die Ergebnisse für jede Region separat analysierten (Tabelle 2), stellten wir fest, dass die Leistung des HIrisPlex-S-Panels zur Vorhersage der Augenfarbe für Personen aus der Kaukasusregion niedriger ist (AUC-Werte sind 0,83 und 0,78 für blaue und dunkle Augen). Insbesondere der Rückruf für blaue Augen im Kaukasus ist im Vergleich zu den anderen nordeurasischen Regionen deutlich geringer – nur 47% (Zusätzliche Datei 2). Es könnte darauf hindeuten, dass Gene der Pigmentstoffwechselwege in den kaukasischen Populationen ein Allelspektrum tragen, das sich etwas von dem in Europa unterscheidet. Bei der Partitionierung des Datensatzes nach der phänotypischen Klasse (Tabelle 1 und Tabelle 2) stellten wir fest, dass die Vorhersage der blauen und braunen Augen in der russischen Bevölkerung viel weniger effektiv ist. Insbesondere neigen die HirisPlex-S-Systeme dazu, blaue Augen falsch als braun einzustufen.
Vorhersage der Augen- und Haarfarbe in nordeurasischen Populationen: Suche nach neuen informativen Allelen. Der allgemeine Arbeitsablauf
Unsere genetischen Daten zu den phänotypisierten Individuen umfassten die vollständige Sequenzierung der pigmentierungsassoziierten Gene und relevanter intergener Regionen anstelle von bisher bekannten SNPs. So konnten wir möglicherweise die neuen informativen Allele in den bekannten Genen aufdecken. Insgesamt haben wir 117.012 SNPs in den 53 Genen und intergenen Regionen aufgerufen.
Für die Vorhersage der Augenfarbe führten wir Algorithmen zur Merkmalsauswahl durch, um neue informative Allele für nordeurasische Populationen für 4 Datensätze zu erhalten:
-
Gepoolter nordeurasischer Datensatz
-
Europäisches Russland
-
Kaukasus
-
Westsibirien
Für die Vorhersage der Haarfarbe haben wir 5 Datensätze verwendet:
-
Gepoolter Nordeurasischer Datensatz
-
Europäisches Russland
-
Kaukasus
-
Westsibirien
-
Nordasien
Der nordasiatische Datensatz wurde nur für die Vorhersage der Haarfarbe analysiert, da für diese Region eine Variation der Haarfarbe beobachtet wird, während es für die Augenfarbe keine solche Variation gibt.
Jeder Datensatz wurde im Verhältnis 60:40 in Trainings- und Testproben unterteilt, wobei der Prozentsatz der Proben für jede Klasse erhalten blieb. Für den gepoolten Datensatz haben wir kontrolliert, dass Stichproben aus verschiedenen Regionen, die im gepoolten Datensatz enthalten sind, im gleichen Verhältnis (60: 40) aufgeteilt wurden, um regionsbedingte Verzerrungen zu vermeiden.
Für den Trainingsdatensatz wurde ein Merkmalsauswahlverfahren durchgeführt (Abbildung S2). Feature-Auswahlverfahren bestand aus der Anwendung von drei Algorithmen:
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
Lasso-Feature-Auswahl mit verschiedenen Alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
Bei der Analyse der Verteilung von F Score (aus f_regression) und MI (aus mutual_info_regression) wurden die Schwellenwerte für die effektivsten Features mit den höchsten Scores für jeden Datensatz einzeln festgelegt. Bei der Auswahl der Lasso-Funktion haben wir verschiedene Optionen des Alpha-Parameters getestet. Für jeden Alpha-Wert haben wir die r2-Werte für den Trainingsdatensatz für die entsprechende Teilmenge von SNPs mit Koeffizienten ungleich Null berechnet.
Unter diesen Teilmengen haben wir die wichtigsten nach den erhaltenen r2-Werten für jeden Datensatz einzeln ausgewählt.
Basierend auf den Ergebnissen von drei Algorithmen zur Merkmalsauswahl wurden alle ausgewählten SNPs in den Top-SNPs-Listen für jeden Datensatz zusammengefasst.
In jeder Top-SNPs-Liste haben wir SNPs ausgewählt, die die beste Vorhersagekraft haben. Diese SNPs bildeten die besten SNPs-Listen, mit denen wir einen Klassifikator erstellten. Um die besten SNPs auszuwählen, haben wir dieselbe Skala wie der HIrisPlex-S-Klassifikator verwendet:
-
Blau, mittel und braun für die Augenfarbe
-
Rot, blond, braun und dunkel für die Haarfarbe
Wir haben diese Klassen unabhängig voneinander betrachtet und versucht, den Klassifikator mit der besten Leistung und dem kleinsten SNPs-Satz zu erstellen.
Wir haben separate Rankingsysteme für die Vorhersage der Augen- und Haarfarbe verwendet, um die Wichtigkeit und Vorhersagekraft jedes SNP abzuschätzen und die SNPs-Listen einzugrenzen.
Die Leistung der am besten ausgewählten Funktionen wurde anhand des Testdatensatzes validiert. Um die Qualität des Modells zu bewerten, berechneten wir den R2-Score (Bestimmungskoeffizient-Regressions-Score-Funktion) (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), den AUC-Score, die Präzisions-, Rückruf- und Genauigkeitsmetriken.
Vorhersage der Augenfarbe
Identifizieren der Top-SNPs im gepoolten nordeurasischen Datensatz
Um die Top-SNPs zu identifizieren, die mit der Augenfarbe in unserer Stichprobe assoziiert sind, haben wir drei Algorithmen angewendet: f_regression (F score), mutual_info_regression (MI) und Lasso Feature selection mit verschiedenen Alphas (0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).
Wir analysierten F (f_regression) – und MI (mutual_info_regression) -Scores-Verteilungen über die Stichproben und wählten die Top 30 SNPs mit den höchsten Scores aus.
Nach den Ergebnissen der Lasso-Feature-Auswahl haben wir uns entschieden, die wichtigsten in die Top-SNPs-Liste aufzunehmen – diejenigen mit Koeffizienten ungleich Null für Alpha = 0,5 (2 SNPs für den Datensatz ‚Augenfarbe‘ und 2 SNPs für den Datensatz ‚Haarfarbe‘) und Alpha = 0.2 (8 SNPs für den Datensatz ‚Augenfarbe‘ und 8 SNPs für den Datensatz ‚Haarfarbe‘) – Diese SNPs haben die größte Vorhersagekraft gemäß der Verteilung der r2-Score-Werte auf verschiedene Alphas. Wir haben auch SNP-Sets für Alphas 0.1, 0.01 und 0.005 enthalten.
Die endgültige Top-SNPs-Liste bestand aus 256 SNPs (Zusätzliche Datei 3).
Eingrenzen der Liste der SNPs und Erstellen eines Klassifikators für die Augenfarbe basierend darauf
Wir haben jedem SNP eine Punktzahl von 0 bis 3 zugewiesen. Die Punktzahl 3 wird nur für SNPs aus der gepoolten obersten SNPs-Liste des Datensatzes zugewiesen, da die Ergebnisse für diesen Datensatz viel robuster sind als für regionale Datensätze (Stichprobengrößen für die regionalen Datensätze sind in der zusätzlichen Datei 4 enthalten). Die Punktzahl 3 wird SNPs zugewiesen, die sich in den Top 5 mit der höchsten F-Punktzahl befinden oder in Lasso-Modellen für Alpha 0,2 Koeffizienten von mehr oder gleich 0,1 im absoluten Wert haben oder in Lasso-Modellen für Alpha 0,5 Koeffizienten ungleich Null haben. Für die gepoolte Stichprobe wird der Score 2 SNPs zugewiesen, die sich in den Top 10 mit den höchsten F- oder MI-Scores befinden oder im Lasso-Modell für Alpha 0.2 Koeffizienten ungleich Null haben. Der Score 1 wird SNPs zugewiesen, die im Lasso-Modell für Alpha 0,005 Koeffizienten größer oder gleich 0,1 haben. Allen anderen SNPs haben wir die Punktzahl 0 zugewiesen. Alle 36 SNPs mit Werten ungleich Null bildeten die Liste der besten SNPs und wurden für den Klassifikator verwendet.
Die fünf SNPs hatten die höchste Punktzahl 3. Zwei von ihnen waren bekannte SNPs, die die Augenfarbe verursachten (rs1129038 und rs12913832), während die restlichen drei bisher nicht als leistungsstarke Allele zur Vorhersage der Augenfarbe gemeldet wurden.
Variation der Liste der besten SNPs über geografische Regionen hinweg
Die gesamte Analyse, die für den gepoolten nordeurasischen Datensatz durchgeführt wurde, wurde für die Populationen aus den drei folgenden Regionen separat wiederholt: Europäisches Russland, Kaukasus und Westsibirien. Für regionale Datensätze wurde der Score 2 SNPs zugewiesen, die sich in den Top 5 mit den höchsten F- und MI-Scores befanden oder Koeffizienten von mehr oder gleich 0 aufwiesen.1 in absolutem Wert im Lasso-Modell für Alpha 0,5 oder ungleich Null Koeffizienten im Lasso-Modell für Alpha 0,7. Die Punktzahl 1 wurde SNPs zugewiesen, die sich in den Top 6 mit den höchsten F- und MI-Werten befanden oder in Lasso-Modellen für Alpha 0,7 und 0,5 Koeffizienten ungleich Null aufweisen. Zusätzliche Datei 5 zeigt die resultierenden besten SNPs-Sets für alle drei Regionen. Der Vergleich der regionalen Listen und der Liste für die gepoolte Stichprobe liegt in der zusätzlichen Datei 6 vor. Im Allgemeinen ist der Satz der besten SNPs in den Regionen stabil: die SNPs mit den höchsten Punktzahlen sind in den meisten Listen enthalten, während es unter den anderen SNPs beide gibt, die in jeder Region identifiziert und regionsspezifisch sind. Weitere Untersuchungen an den zusätzlichen phänotypisierten Proben sind erforderlich, um die Signifikanz der regionsspezifischen SNPs zu replizieren.
Die zusammengeführte SNPs-Liste wurde nach Gesamtpunktzahl geordnet (als Summe aller Punktzahlen für 4 Stichproben: Kaukasus, Westsibirien, Europäisches Russland und gepoolt) (Zusätzliche Datei 6). Top 7 SNPs haben die höchste Gesamtpunktzahl und traten in mehr als einem Datensatz auf, was eine zusätzliche Bestätigung dafür ist, dass diese SNPs eine starke Vorhersagekraft haben (Tabelle 3). Zwei dieser SNPs (rs1129038 und rs12913832) sind bereits im HIrisPlex-S-Panel enthalten, während andere fünf SNPs neue Kandidaten für die Vorhersage der Augenfarbe in den nordeurasischen Populationen sind. Wir haben die Häufigkeit dieser fünf SNPs in nordeurasischen Populationen geschätzt (Zusätzliche Datei 7). Jedes SNP wurde in jeder regionalen Population mit polymorphen Frequenzen nachgewiesen, daher sind diese SNPs eher verbreitet als selten.
Die Leistung der nordeurasischen SNPs
Wir haben die Leistung der SNPs geschätzt, die in unserer nordeurasischen Stichprobe die höchste Vorhersagekraft zeigten. Das minimale Set enthielt 7 SNPs, von denen zwei zuvor im HIrisPlex-S-Panel enthalten waren. Das optimale Set umfasste 36 SNPs, die die höchsten Punktzahlen im gepoolten nordeurasischen Datensatz erhielten. Wir haben die Klassifizierungsleistung beider Sätze nordeurasischer SNPs getestet. Abbildung 2 zeigt die ROC-Kurven und AUC-Werte für die Vorhersage von drei Augenfarben. Die Genauigkeit von 7 SNPs ist fast so effektiv wie die Vorhersage basierend auf den 41 HIrisPlex-S SNPs, während der Satz von 36 nordeurasischen SNPs 41 HIrisPlex-S SNPs in unserer Stichprobe leicht übertrifft (Abb. 2, Tabelle 1).
Haarfarbvorhersage
Wir haben die gleiche Analyse der Funktionsauswahl durchgeführt, um die Top-SNPs-Liste für die Haarfarbvorhersage für die gepoolte nordeurasische Stichprobe zu finden und auszuwerten, die Populationen aus den folgenden Regionen umfasst: Kaukasus, Europäisches Russland, Westsibirien und Nordasien.
Wir haben die 322 besten SNPs ausgewählt und die Liste auf die 33 besten SNPs mit der stärksten Leistung für die 4-Stufen-Klassifizierung eingegrenzt: rote, blonde, braune und dunkle Haarfarbe, die gleiche Skala wie HIrisPlex-S (Zusätzliche Datei 8).
Wir haben Signifikanzwerte zugewiesen, um die Mindestmenge an SNPs auf folgende Weise auszuwählen:
- 1)
Die Punktzahl 3 wurde SNPs zugewiesen, die sich in den Top 5 mit den höchsten F- oder MI-Werten befinden oder in Lasso-Modellen für Alpha 0,2 Koeffizienten von mehr als 0,05 im absoluten Wert haben oder in Lasso-Modellen für Alpha 0 Koeffizienten ungleich Null haben.5
- 2)
Die Punktzahl 2 wurde SNPs in den Top 10 mit den höchsten F- oder MI-Punktzahlen zugewiesen
- 3)
Die restlichen SNPs der 33 besten SNPs-Liste haben die Punktzahl 1
Wir konnten die leistungsstärksten 11 SNPs mit der höchsten Punktzahl (3) erkennen, von denen drei im HIrisPlex-S-Panel enthalten sind (rs16891982 , rs12913832 und rs1129038).
Wir haben die Leistung des Klassifikators basierend auf 11 SNPs überprüft und versucht, seine Fähigkeit zu schätzen, zwischen 4 unabhängigen Klassen zu unterscheiden (die gleichen wie für HIrisPlex-S): rotes, blondes, braunes und dunkles Haar (Zusätzliche Datei 9).
Zusätzlich haben wir versucht, 2 Klassen von Haarfarbe zu verschmelzen – blond und braun – weil Algorithmus nicht genug Kraft hat, um sie zu unterscheiden, und überprüft die Leistung der ausgewählten SNPs für 3 Grad-Skala. Wie wir aus den Ergebnissen (Abb. 3) die Klassifikatorleistung verbesserte sich signifikant für beide SNPs: die leistungsstärksten 11 SNPs und 33 besten SNPs.
Die neuen potenziell informativen SNPs
Unsere Analyse identifizierte fünf neue SNPs, die die hohe Vorhersagekraft für die Augenfarbe zeigten. Diese SNPs wurden in der gepoolten nordeurasischen Stichprobe aufgedeckt und in den meisten regionalen Teilstichproben repliziert. Vier dieser SNPs befinden sich im HERC2-Gen und einer (rs4812447) befindet sich in der intergenen Region. Das HERC2-Gen (HECT- und RLD-Domäne mit E3-Ubiquitin-Proteinligase 2) gehört zur HERC-Genfamilie, die für eine Gruppe ungewöhnlich großer Proteine kodiert, die mehrere strukturelle Domänen enthalten. Genetische Variationen in diesem Gen sind mit der Variabilität der Haut-, Haar- und Augenpigmentierung verbunden .
Einschränkungen des verwendeten Ansatzes
Wir analysierten die Leistung der bekannten und prädiktiven SNPs und suchten nach den neuen SNPs in bisher nicht untersuchten Populationen aus verschiedenen geografischen Gebieten. Dieser regionalbasierte Ansatz ermöglichte es, SNPs zu identifizieren, die für die jeweiligen Bevölkerungsgruppen informativ sind, machte jedoch die Stichprobengrößen aus jeder Region recht begrenzt. Daher konnten wir unsere Stichprobe nicht in den Trainingsdatensatz und den Validierungsdatensatz unterteilen – dies würde dazu führen, dass die Stichprobengrößen auf Zahlen reduziert werden, die die statistisch signifikante Analyse nicht zulassen. Daher zwang uns unser Ansatz, denselben Datensatz für die SNPs-Erkennung, die Erstellung des Klassifizierungsmodells und auch für die Validierung zu verwenden, was zu einer Überschätzung der Vorhersage führen könnte. Daher sollte die Leistung unserer SNPs als obere Schätzung betrachtet werden, und die identifizierten SNPs als Kandidaten bis zur Überprüfung der unabhängigen Stichprobe in den zukünftigen Studien. Die Stabilität der prädiktiven SNPs für die Top-Augenfarbe in geografischen Regionen bestätigt jedoch teilweise die Wirksamkeit der neu identifizierten prädiktiven SNPs.