データセットの組み立て
私たちは、彼らの目と髪の色を識別することにより、ロシアと近隣諸国の48集団から300人の個体を表現型化しました。 三人の専門家による独立した表現型と再訪のための写真の可用性は、表現型を信頼性が高く再現性がありました。 人口は四つの地域データセットにグループ化されました: ヨーロッパのロシア、西シベリア、コーカサス、および北アジア;Fig. 1aは、サンプリング位置と地域データセットへのグループ化を提示します。 サンプリングされた大面積に対応して、地域のメタ集団は対照的な遺伝的背景を持っています。 本発明者らは、これらの知見を説明するために、本研究に含まれる集団のPC分析を行った(図1 0A)。 1b)。 我々は、HIris-plex-Sが開発され、検証された人口(オランダ語、ポーランド語、アイルランド語、ギリシャ語)は、PCプロットの”西部”の極端な狭いゾーンを占めているが、我々の研究、特に北アジア、コーカサス、西シベリアに存在する人口は、西ヨーロッパ人と互いに発音が異なっていることに注意してください。 したがって、すべての下流の分析は、各地域のデータセットとプールされたデータセットに対して実行されました。
これらの300人からのDNAサンプルは、標準的なロシュエクソームキャプチャに加えて、色素沈着関連の多型部位を運ぶことが知られているイントロニックおよび遺伝子間領域を含む特別に設計されたエキソームキャプチャを用いて配列決定された(詳細については、方法を参照)。
結合されたデータセットには、すべての個人の表現型呼び出しと遺伝子型呼び出しが含まれていました。 表現型の呼び出しは、髪の闇の五つのカテゴリ、髪の赤みの三つのカテゴリ、および目の闇の五つのカテゴリが含まれていました。 遺伝子型コールには、53個の遺伝子および目/髪の色素沈着に関与することが知られている遺伝子間領域内で同定されたすべての多型部位の遺伝子型 下流の分析は、この組み合わせたデータセットのサブセットで実行されました。
北ユーラシア集団におけるHIrisPlexの精度の検証
私たちは、新たに表現型集団における標準的な目/髪の予測システムの精度を推定することから始 結合されたデータセットから、我々はHIrisPlex-Sに含まれる24Snpの表現型と遺伝子型の呼び出しを抽出し、我々はオンラインHIrisPlex-Sツールを使用して遺伝子型から目と髪の色を予測し、予測された表現型を実際の表現型と比較した(表1)。 表2は、異なるメタポピュレーションにおける目の色予測の結果を示しています(明るい目の頻度が低い北アジアを除く)。 プールされた北ユーラシアデータセットのAUC値は、西/中央ヨーロッパ人(特に茶色と赤色の髪)よりもわずかに低いことがわかりました(表1、追加ファイル1)。 しかし、各領域の結果を別々に分析したところ(表2)、コーカサス地域の個体では目の色を予測するためのHIrisPlex-Sパネルの性能が低いことがわかりました(AUC値は0.83と0.78、青と暗い目の場合)。 特に、コーカサスの青い目のリコールは、他の北ユーラシア地域と比較して有意に低く、わずか47%(追加ファイル2)です。 コーカサス集団における色素沈着代謝経路の遺伝子は,ヨーロッパのそれとはやや異なる対立遺伝子スペクトルを運ぶことを示していると考えられる。 表現型クラス(表1と表2)に従ってデータセットを分割すると、ロシアの人口における青と茶色の目の両方を予測することははるかに効果的ではないこ 特に、HirisPlex-Sシステムは、青い目を茶色として誤って分類する傾向があります。p>
北ユーラシア集団における目と髪の色予測:新しい 一般的なワークフロー
表現型の個人に関する私たちの遺伝子データは、以前に知られているSnpのみではなく、色素沈着関連遺伝子と関連する遺伝子間領域の完全なシーケンシングが含まれていました。 したがって、我々は潜在的に知られている遺伝子の新しい有益な対立遺伝子を明らかにすることができた。 合計では、我々は117,012遺伝子と遺伝子間領域で53Snpと呼ばれます。
目の色予測のために我々は4データセットの北ユーラシア集団のための新しい有益な対立遺伝子を得るために特徴選択アルゴリズムを実行しました:/p>
-
プールされた北ユーラシアデータセット
-
ヨーロッパロシア
-
コーカサス
-
西シベリア
髪の色予測には、5つのデータセットを使用しました。
-
プールされた北ユーラシアデータセット
-
ヨーロッパロシア
-
コーカサス
-
西シベリア
-
北アジア
北アジアのデータセットは、この地域では髪の色の変化が観察されているため、髪の色の予測
各データセットは、各クラスのサンプルの割合を維持して、トレーニングサンプルとテストサンプルに60:40の比率で分割されています。 プールされたデータセットでは、プールされたデータセットに含まれる異なる領域からのサンプルが、領域関連の偏りを避けるために同じ割合(60:40)で分割さ
特徴選択手順は、トレーニングデータセット(図S2)に実行されています。 特徴選択手順は、三つのアルゴリズムを適用することからな:p>
- 1)
f_regression
- 2)
mutual_info_regression
- 3)
異なるアルファを持つ投げ縄機能の選択(0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005)
Fスコア(f_regression)とMI(mutual_info_regression)の分布を分析するとき、スコアが最も高い最も効果的な特徴のしきい値を各データセットごとに個別に設定しました。 なげなわの特徴の選択を実行するとき、我々はアルファパラメータのさまざまな選択肢をテストしました。 Αの各値について、ゼロ以外の係数を持つSnpの対応するサブセットのトレーニングデータセットでr2スコアを計算しました。
これらのサブセットの中で、各データセットの得られたr2スコアに従って最も重要なものを個別に選択しました。
特徴選択の三つのアルゴリズムからの結果に基づいて、選択されたすべてのSnpが各データセットのトップSnpリストに結合されました。
各上位SNPsリストで、最良の予測力を持つSnpを選択しました。
これらのSnpは,分類器を構築するために使用した最良のSnpリストを形成した。 最適なSnpを選択するために、HIrisPlex-S classificatorと同じスケールを使用しました。
-
目の色に青、中間、茶色
-
髪の色に赤、金髪、茶色、暗い
これらのクラスは互いに独立していると考え、最高のパワーと最小のSnpセットを持つ分類器を構築しようとしました。
私たちは、SNPsリストを絞り込むために、各SNPの重要性と予測パワーを推定するために、目と髪の色の予測に別々のランキングシステムを使用しました。
最適に選択されたフィーチャのパフォーマンスがテストデータセットで検証されました。 モデルの品質を評価するために、R2スコア(決定係数回帰スコア関数)(https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)、AUCスコア、精度、リコールおよび精度メトリクスを計算
目の色の予測
プールされた北ユーラシアデータセット内のトップSnpの識別
私たちのサンプルで目の色に関連付けられているトップSnpを識別するために、我々は3つのアルゴリズムを適用した:f_regression(Fスコア)、mutual_info_regression(MI)、および異なるアルファを持つ投げ縄特徴選択(0.7, 0.5, 0.2, 0.1, 0.05, 0.01, 0.005, 0.001, 0.0005).サンプル全体のF(f_regression)およびMI(mutual_info_regression)スコア分布を分析し、スコアが最も高い上位30のSnpを選択しました。
サンプル全体のf(f_regression)およびMI(mutual_info_regression)スコア分布
投げ縄の特徴の選択からの結果によると、我々はトップSnpリストに最も重要なものを含めることにしました-アルファ=0.5(”目の色”データセットのための2つのSnpと”髪の色”データセットのための2つのSnp)とアルファ=0の係数がゼロでないもの。2(‘eye color’データセットの8つのSnpと’hair color’データセットの8つのSnp)-これらのSnpは、異なるアルファに対するr2スコア値分布に従って最も予測パワーを持ちます。 また、alphas0.1、0.01、0.005用のSNPセットも含まれていました。
最終的なトップSnpリストは256Snp(追加ファイル3)で構成されていました。
Snpのリストを絞り込み、それに基づいて目の色の分類器を構築します
各SNPに0から3までのスコアを割り当てました。 スコア3は、そのデータセットに対して行われた結果が地域データセットよりもはるかに堅牢であるため、プールされたデータセットの上位SnpリストのSnpに スコア3は、Fスコアが最も高い上位5にあるSnpに割り当てられ、alpha0.2のLassoモデルでは絶対値が0.1以上の係数を持つか、alpha0.5のLassoモデルでは非ゼロ係数を持つSnpに割り当てられます。 プールされたサンプルの場合、スコア2は、fまたはMIスコアが最も高い上位10にあるか、アルファ0.2のLassoモデルで非ゼロ係数を持つSnpに割り当てられ スコア1は、アルファ0.005のLassoモデルで係数が0.1以上のSnpに割り当てられます。 他のすべてのSnpにスコア0を割り当てました。 ゼロ以外のスコアを持つすべての36Snpは、最良のSnpリストを形成し、分類器に使用されました。
五つのSnpは、最高のスコア3を持っていました。 それらのうちの2つはよく知られている目の色を引き起こすSnp(rs1129038およびrs12913832)であったが、残りの3つは強力な目の色予測対立遺伝子として以前に報告されていなかった。
地理的地域にわたる最良のSNPsリストの変動
プールされた北ユーラシアデータセットに対して実行された分析全体は、ヨーロッパロシア、コーカサス、西シ 地域データセットの場合、スコア2は、FおよびMIスコアが最も高い上位5にあったか、または係数が0以上であったSnpに割り当てられました。アルファ0.5の場合は投げ縄モデルの絶対値で1、アルファ0.7の場合は投げ縄モデルの非ゼロ係数。 スコア1は、fおよびMIスコアが最も高い上位6にあったか、アルファ0.7および0.5のLassoモデルで係数がゼロ以外の係数を持つSnpに割り当てられました。 追加のファイル5は、3つの領域すべてに対して結果として得られる最良のSnpセットを提示します。 地域リストとプールされたサンプルのリストの比較は、追加のファイル6に存在します。 一般に、最良のSnpのセットは、地域全体で安定しています: 最も高いスコアを持つSnpは、ほとんどのリストに含まれ、他のSnpの中には、すべての領域内で識別され、領域固有の両方が存在する。 追加の表現型のサンプルのさらなる研究は、領域特異的Snpの意義を複製する必要があります。
マージされたSNPsリストは、合計スコア(コーカサス、西シベリア、ヨーロッパロシア、およびプールされた4つのサンプルのすべてのスコアの合計として)でランク付けされた(追加ファイル6)。 上位7つのSnpの合計スコアが最も高く、複数のデータセットで発生したことは、これらのSnpが強い予測力を持っていることをさらに確認しています(表3)。 これらのSnpのうち2つ(rs1129038およびrs12913832)はすでにHIrisPlex-Sパネルに含まれていますが、他の5つのSnpは北ユーラシア集団で予測される目の色の新しい候補です。 我々は、北ユーラシア集団におけるこれらの五つのSnpの頻度を推定した(追加ファイル7)。 各SNPはすべての地域集団において多型頻度で検出されたので,これらのSnpはまれなものではなく一般的である。
北ユーラシアSnpセットパフォーマンス
私たちは、北ユーラシアのサンプルで最高の予測力を示したSnpのパフォーマンスを推定しました。 最小セットには7つのSnpが含まれており、そのうちの2つは以前HIrisPlex-Sパネルに含まれていました。 最適なセットには、プールされた北ユーラシアデータセットで最高のスコアを受け取った36Snpが含まれていました。 我々は、北ユーラシアSnpの両方のセットの分類性能をテストしました。 図2は、三つの目の色の予測のためのROC曲線とAUCスコアを示しています。 7つのSnpセットの精度は、41個のHIrisPlex-S Snpに基づく予測とほぼ同じくらい効果的ですが、36個の北ユーラシアSnpのセットは、サンプルで41個のHIrisPlex-S Snpをわずかに優 図2、表1)。
髪の色の予測
コーカサス、ヨーロッパロシア、西シベリア、北アジアの人口を含むプールされた北ユーラシアサンプルの髪の色の予測のためのトップSNPsリストを見つけて評価するために、同じ特徴選択分析を行った。トップ322Snpを選択し、リストを33のベストSnpに絞り、4グレードの分類で最もパフォーマンスが高いものにしました。
: 赤、金髪、茶色、暗い髪の色、HIrisPlex-Sと同じスケール(追加ファイル8)。
次の方法でSnpの最小セットを選択するために有意性スコアを割り当てました。
- 1)
スコア3は、fまたはMIスコアが最も高い上位5にあるSnpに割り当てられているか、アルファ0.2のLassoモデルで絶対値が0.05を超える係数を持つSnpに割り当てられています。5
- 2)
スコア2は、最高のFまたはMIスコアを持つトップ10のSnpに割り当てられています
- 3)
33最高のSnpリストの残りのSnpは、スコア1を持っています
私たちは、最も強力な11Snpを検出することができました(3),それらの三つはHIrisPlex-Sパネルに含まれています(rs16891982,rs16891982,rs16891982,rs16891982,rs16891982,Rs16891982,Rs16891982,Rs16891982,Rs16891982,Rs16891982,Rs16891982,Rs16891982およびRS1 1 2 9 0 3 8)。
私たちは、11のSnpセットに基づいて分類器の性能をチェックし、4つの独立したクラス(HIrisPlex-Sと同じ)を区別する能力を推定しようとしました:赤、金髪、茶
さらに、アルゴリズムにはそれらを区別するのに十分な力がないため、ブロンドとブラウンの2つのクラスの髪の色をマージしようとし、選択したSnpの性能を3グレードスケールで確認しました。 結果からわかるように(図1)。 3)分類器の性能はSnpの両方のセットのためにかなり改善しました:最も強力な11Snpおよび33の最もよいSnp。
新しい潜在的に有益なSnp
私たちの分析は、目の色の高い予測パワーを実証した五つの新しいSnpを特定 これらのSnpはプールされた北ユーラシアのサンプルで明らかにされ,ほとんどの地域のサブサンプルで複製された。 これらのSnpの四つはHERC2遺伝子に位置し、一つ(rs4812447)は遺伝子間領域にあります。 HERC2(HectとRldドメインを含むE3ユビキチン蛋白質リガーゼ2)遺伝子は、複数の構造ドメインを含む異常に大きなタンパク質のグループをコードするHERC遺伝子ファミリーに属しています。 この遺伝子の遺伝的変異は、皮膚/毛髪/眼の色素沈着変動性と関連している。
使用されたアプローチの制限
我々は、既知の色素沈着予測Snpのパフォーマンスを分析し、異なる地理的領域からの以前に研究されていない集団 この地域ベースのアプローチは、特定の集団のために有益であるが、各地域からのサンプルサイズは非常に限られた作られたSnpを識別することができま したがって、サンプルをトレーニングデータセットと検証データセットに細分化することはできませんでした。 したがって、我々のアプローチは、SNPsの発見、分類モデルの構築、および検証に同じデータセットを使用することを余儀なくされ、予測の過大評価につながる可 したがって、我々のSnpの性能は、将来の研究では独立したサンプルの検証まで、上位推定値として考慮され、同定されたSnpは候補とみなされるべきである。 地理的領域にわたるトップアイカラー予測Snpの安定性は、部分的に、新たに同定された予測Snpの有効性を検証する。