マイナー対立遺伝子は、可変部位の集団における頻度の低い対立遺伝子である。 まず,ゲノム中の特定の部位におけるマイナー対立遺伝子頻度(MAF)を推定するための二つの主要なアプローチについて述べた。 最初のアプローチは、個々の遺伝子型を推定し、MAFを推定する際にそれらの推定された遺伝子型を完全に正確であるとして扱うことを含む。 次に、遺伝子型を割り当てる際の不確実性を直接考慮する尤度フレームワークのパフォーマンスを調べます。 私たちの仕事を通して、私たちはすべての分離サイトが双方向であると仮定します。
呼び出された遺伝子型からMAFの推定
次世代の配列データからMAFを推定する一つの方法は、最初に配列データを使用して個々の遺伝子型を呼 これは、伝統的に遺伝子型データとサンガー配列決定データのために使用されるアプローチでした。 次世代シークエンシングデータに適用した場合、それがどれだけうまく機能するかは明らかではありません。最尤アプローチは、次世代配列決定データから各個体の遺伝子型を推測するために使用することができる。
最尤アプローチは、次世代配列決定データから各個体の遺伝子型を推測するために使用することができる。 各部位jにおいて、各個体iについて、3つの可能性のある遺伝子型のそれぞれの尤度(我々が小対立遺伝子を知っていると仮定して)は、次のように与え:
ここで、d i,jはサイトjにおける個々のiにおける観察された配列決定データであり、g i,j≤{0,1,2}は各個人の遺伝子型に含まれるマイナー対立遺伝子の数であり、シーケンスエラーの制御と読み取りベース品質をそれぞれ制御します。 各個体について観察された配列決定データは、読み取り品質スコアを考慮したサイトjでの読み取りの整列と考えることができる。 これは遺伝子型尤度として表され、SOAPsnpやMAQなどの次世代配列決定データを分析する多くのプログラムで生成される遺伝子型尤度ファイル(GLF)に見特定の個体に遺伝子型を割り当てるために、3つの可能性のある遺伝子型のそれぞれの尤度をその個体について計算することができる。
次に、最も高い可能性を有する遺伝子型を割り当てることができる。 しかし、研究者はしばしばより厳格な呼び出し基準を好み、最も可能性の高い遺伝子型が第二の最も可能性の高いものよりも実質的に可能性が高い ここで、3つの可能な遺伝子型は、その尤度によってソートされます:、ここでg(k)はk番目の最大尤度を持つ遺伝子型に対応します。 与えられたしきい値fで、の場合、遺伝子型g(1)を呼び出すことができます。 それ以外の場合、遺伝子型は呼び出されず、個人の遺伝子型は欠落しているとみなされます。 Fの共通した閾値は1であり、最も可能性の高い遺伝子型が第二の最も可能性の高い遺伝子型よりも少なくとも10倍可能性が高いことを示す。 このタイプのフィルタリングは、「呼び出された」遺伝子型の信頼性が高くなる可能性があるが、より多くの欠損データをもたらすことにも注意してく
対立遺伝子頻度の最尤推定器
呼び出された遺伝子型からMAFを推定する代わりに、Kimらによって導入された最尤(ML)法。 (同様のアプローチについてはLynchも参照)Mafを直接推定し、遺伝子型の不確実性を考慮に入れる。 具体的には、小対立遺伝子が与えられた場合、各個体iで配列データを観察する確率は、3つの可能な遺伝子型すべてに対応する確率を合計することに
式1で定義された三つの遺伝子型尤度が利用可能であると仮定します。 上記と同じ表記法を使用して、djおよびpjを、それぞれ、サイトjおよび対応するMAFでの観察された配列決定データとする。 マイナー対立遺伝子頻度がHardy-Weinberg平衡(HWE)を仮定することによって計算できることを与えられた遺伝子型確率。 次に、個人間の独立性を仮定すると、この軌跡におけるMAFの尤度は、すべてのN個の個人にわたって計算されるすべての尤度の積です。
PjのML推定値は、Broyden-Fletcher-Goldfarb-Shanno(Bfgs)を使用して制限されたパラメータ空間の尤度を直接最大化することによって計算することができます。方法または期待最大化(em)アルゴリズムを使用して。 EMアルゴリズムを使用する場合、遺伝子型の事後期待値が個々ごとに計算され、それらの事後の平均が繰り返し更新されます。 BFGSの実装はEMアルゴリズムよりも高速でした。 たとえば、100,000サイトから推定値を取得するには、BFGには約16秒かかりましたが、EMには約100秒かかりました。 ただし、速度の違いは実装固有のものである可能性があります。 私たちの場合、両方の方法で、尤度の増加が0.001未満のときにパラメータの更新を停止しました。
不確かなマイナー対立遺伝子を持つ最尤推定量
実際には、多くの場合、個人間で二番目に一般的なヌクレオチドは、マイナー対立遺伝子とし しかし、まれなSnp(例えば、MAF<1%)では、配列決定エラーのために4つのヌクレオチドすべてが一部の読み取りに現れる可能性があるため、どの対立遺伝子がマイナー対立遺伝子であるかを決定することは困難である。 この状況に対処するために、我々は今、アカウントにマイナー対立遺伝子の決定の不確実性を取る尤度の枠組みについて説明します。サイトjについて主要な対立遺伝子Mを知っていると仮定します。
サイトjについて主要な対立遺伝子Mを知っていると仮定します。 まれなSnpでの頻度の推定に主に関心があるため、2つの共通の対立遺伝子のどれが主要な対立遺伝子である可能性が高いかを決定することは重要ではないことに注意してください。 さらに、中間頻度(約50%)を有する対立遺伝子については、主要対立遺伝子とマイナー対立遺伝子との区別はあまり重要ではない。 他の三つの非主要ヌクレオチドm1、m2、およびm3を割り当てます。 したがって、マイナー対立遺伝子の指定の不確実性を可能にするために、尤度関数は次のように変更することができます。:
さらに、三つの可能なマイナー対立遺伝子のいずれかが等しく可能性が高いと仮定すると、次のようになります。
ここで、
ここで、
。 は大きなデータセット(例えば、多くの個人)では非常に小さくなる可能性があるため、対数スケールで尤度を計算すると便利です。 3つの条件付き対数尤度を(l(1),l(2),l(3))に順序付けします(l(1)は最大の対数尤度です)。 その後、
関連マッピングのための呼び出された遺伝子型を使用したGテスト
関連研究では、症例と対照の間の対立遺伝子頻度に有意な差を示すSnpは、関心の表現型と関連していると言われている。 関連マッピングは、次世代配列決定研究からのデータを使用して実行することができます。 我々は最初に個々の遺伝子型を呼び出す必要があるアプローチを議論し、呼び出された遺伝子型を使用して関連付けのテストを実行します。 このアプローチでは、遺伝子型は、最初に各個人のために呼び出されます。 遺伝子型はろ過するか、またはろ過しないことができます。 個体間の独立性とHWEを仮定すると、2×2分割表は、症例と対照の両方における主要対立遺伝子と副対立遺伝子の数を数えることによって構築することができます。 これは、独立性のためのよく知られた尤度比検定、G検定につながります:
(5)
ここで、O k,hはセルで観察される頻度であり、E k,hは対立遺伝子の頻度がケースとコントロールの間で同じである帰無仮説の下で期待される頻度である。 よく知られているピアソンのカイ二乗検定は、g検定と漸近的に等価です。 表が真の遺伝子型から生成された場合、G統計量は1自由度(σ2(1))のカイ二乗分布に漸近的に従います。 しかし、我々の研究では、我々は”と呼ばれる”遺伝子型を使用してG統計を構築するため、HWEは、ヘテロ接合体のオーバーとアンダーコールのために保持しない可能性が さらに、「観察された」遺伝子型の代わりに「呼ばれた」遺伝子型を数えることによって試験統計を構築することは、おそらく余分な変動性を導入する。 したがって、統計理論はもはや有効ではないかもしれません。 遺伝子型が特定の個体のために呼び出されない場合、データは欠落しているとみなされ、2×2表には含まれないことに留意されたい。
尤度比検定は、関連マッピングのために観察された遺伝子型の不確実性を考慮する
遺伝子型を呼び出す代わりに、尤度フレームワークは、遺伝子型の不確実性を可能にし、各部位jで対立遺伝子の頻度がケースとコントロールの間で同じであるかどうかを検定する。 形式的には、仮説H Oの尤度を計算します:pj,1=pj,2(=pj,0)およびH A : ここで、pj,1およびpj,2は、それぞれケースおよびコントロールにおけるMafである。マイナー(m)およびメジャー(M)対立遺伝子が既知であると仮定すると、マイナー対立遺伝子頻度の尤度は式2に記載されているように計算することができ、尤度比検定統計量は次のように計算されます。
:p>
ここで、は、それぞれケースとコントロールのmafのmleです。小対立遺伝子が不明な場合、帰無仮説の尤度は式3のように計算され、LRT統計量は次のように修正されます:P>
ここで、djはケースとコントロールの両方の観測データであり、は帰無仮説の下での対立遺伝子頻度です。 その他の表記は、式6と同じである。
シミュレートされたデータでMAFを推定する
我々は、真の遺伝子型(True)、任意のフィルタリングなしの遺伝子型(Nfを呼び出す)と呼ばれる、フィルタリング(f=1; 稀なSnpの場合、小対立遺伝子型はしばしば明らかではない。 遺伝子型を呼び出すとき、第二の最も一般的なヌクレオチドは、マイナー対立遺伝子であると仮定されます。 ML法は、マイナー対立遺伝子を決定する際の不確実性を直接組み込み、特に明記しない限り、未知のマイナー対立遺伝子法(式3)を用いた結果が示される。 未知の小対立遺伝子ML法は、既知の小対立遺伝子ML法と同様に機能するが、非常にまれなSnp(追加ファイル1)に対しては前者の方が優れていることに注
我々は最初に、異なるアプローチが200人の個体において、真のMAFが5%の1,000Snpのシーケンス深度の範囲にわたってMAFを推定することができたかを評価した。 図1は、4つの異なるアプローチを使用して推定されたMafの分布の箱ひげ図を示しています。 予想されるように、1 2×の個々の深さなどのより高いカバレッジデータについては、遺伝子型が確実に知られている場合と同様に、すべての方法が実行さ しかし、深さが減少すると、最初に遺伝子型を呼び出すことによって得られたMAFの推定値は偏ったものになる。 たとえば、Call F法を使用して推定されたMAFの中央値は、6倍のカバレッジで5.3%、2倍で12.5%です。 上方バイアスの理由は、真のヘテロ接合体はしばしば配列決定エラーのように見えるので、ヘテロ接合体を呼び出すことが困難になるからである。 したがって、マイナーなホモ接合体よりも多くのヘテロ接合体は、遺伝子型が欠落している傾向があります。 しかしながら、呼び出された遺伝子型からのMAF推定の全体的な偏りは、常に一方向にあるとは限らない(データは示されていない)。 興味深いことに、バイアスはCall Fメソッドの方がCALL NFメソッドよりも悪いように見えます。 このパターンは、遺伝子型呼び出しをフィルタリングすると、配列決定エラーをヘテロ接合体と呼ぶ確率が低下するように見えるため、直感的ではないように見えるかもしれません。 しかし、Call Fメソッドは、主要な対立遺伝子の多くのホモ接合体が配列決定エラーのために呼び出されないため、大量の欠損データをもたらす。 したがって、この例では、フィルタリングせずに遺伝子型を呼び出すことは、MAFを推定しようとするときに遺伝子型をフィルタリングするよりも
新しいMLメソッドの結果は劇的に異なります。 この方法は、深さの範囲にわたってMAF(-4.9%の中央値)の公平な推定値を提供します。 2倍であっても、推定値は真の遺伝子型に基づくものよりもわずかに大きな分散しか示さない。また、シーケンス深度の範囲にわたってMAFの異なる推定値の推定平均二乗誤差(MSE;Expectation()を比較しました(図2)。 MLメソッドのMSEは、50人または200人の呼び出し元メソッドよりも低くなります。 特に、Call Fメソッドに基づいて計算されたMSEは、特に深度が減少する場合に、他のメソッドからのMSEよりもはるかに高くなります。 真の遺伝子型に基づくMAFの推定値のMSEはMSEの下限を反映し、サンプリング分散と有限サンプルサイズのために深さにわたって一定ではありません。 50人を使用すると、MSEは深さの増加に伴って0.0005に近づき、200人のサンプルサイズを使用すると、深さの増加に伴って0.0013に近づきます。