Becslése allél gyakorisága, egyesület mapping segítségével következő generációs szekvenálási adatok

A kisebb allél a kevésbé gyakori allél a lakosság, változó helyszínen. Először két fő megközelítést írunk le a kisebb allélfrekvencia (MAF) becslésére a genom egy adott helyén. Az első megközelítés magában foglalja az egyes genotípusok levezetését,és a levezetett genotípusoknak a MAF becslésekor történő teljes pontosságát. Ezután megvizsgáljuk egy valószínűségi keret teljesítményét, amely közvetlenül figyelembe veszi a genotípusok hozzárendelésének bizonytalanságát. Munkánk során feltételezzük, hogy minden szegregáló webhely biallelikus.

a MAF becslése az úgynevezett genotípusokból

a MAF becslésének egyik módja a következő generációs szekvenálási adatokból az, hogy először genotípust hívunk minden egyes személy számára szekvenálási adatok felhasználásával, majd ezeket a genotípusokat úgy használjuk, mintha azok igazak lennének. A genotípusadatok és a Sanger szekvenálási adatok esetében hagyományosan ezt a megközelítést alkalmazták. Nem világos, hogy milyen jól fog működni, ha a következő generációs szekvenálási adatokra alkalmazzák.

a következő generációs szekvenálási adatokból az egyes egyedek genotípusát maximális valószínűségi megközelítéssel lehet következtetni. Minden egyes helyszínen j, minden egyes i esetében a három lehetséges genotípus valószínűsége (feltételezve, hogy ismerjük a kisebb allélt) a következő:

(1)

ahol a D i,j a megfigyelt szekvencia adatok az egyes én-telepen j, g, i , j ∈ {0, 1, 2} az a szám, kisebb allélek található a genotípus az egyes, a vagy ellenőrzés sorrendi hibák olvasni bázis tulajdonságait, ill. A megfigyelt szekvenálási adatok minden egyes ember számára úgy gondolhatók, mint az olvasás összehangolása a J helyszínen, figyelembe véve az olvasási minőségi pontszámokat. Ez genotípus valószínűségként jelenik meg, és megtalálható a genotípus valószínűségi fájlban (GLF), amelyet számos olyan programban állítanak elő, amelyek elemzik a következő generációs szekvenálási adatokat, mint például a SOAPsnp és a MAQ .

a genotípus egy adott egyénhez való hozzárendeléséhez a három lehetséges genotípus valószínűsége kiszámítható az egyén számára. Ezután a legnagyobb valószínűséggel rendelkező genotípus hozzárendelhető. A kutatók azonban gyakran inkább a szigorúbb hívási kritériumot részesítik előnyben, és nem rendelnek genotípust az egyénhez, kivéve, ha a legvalószínűbb genotípus lényegesen valószínűbb, mint a második legvalószínűbb. Itt a három lehetséges genotípus sorrendje hasonló: , ahol g(k)megfelel a K th legnagyobb valószínűségével rendelkező genotípusnak. Egy adott f küszöbértékkel a G (1) genotípust hívhatjuk, ha . Ellenkező esetben nem neveznek genotípust, és az egyén genotípusa hiányzik. Az F közös küszöbértéke 1, ami azt jelzi, hogy a legvalószínűbb genotípus legalább 10-szer nagyobb valószínűséggel, mint a második legvalószínűbb. Vegye figyelembe, hogy az ilyen típusú szűrés nagyobb bizalmat eredményezhet az “úgynevezett” genotípus esetében, de több hiányzó adatot is eredményez.

az allélfrekvencia maximális valószínűségi becslése

ahelyett, hogy a MAF-t az úgynevezett genotípusokból becsülnék, a Kim et al által bevezetett maximális valószínűségi (ML) módszer. (Lásd még Lynch hasonló megközelítést) közvetlenül becsüli a MAFs-t, és figyelembe veszi a genotípus bizonytalanságát. Pontosabban, mivel egy kisebb allél, a valószínűsége megfigyelése a szekvencia adatok minden egyes i kapunk összegezve a valószínűségek megfelelő mindhárom lehetséges genotípusok.

tegyük fel, hogy az 1.egyenletben meghatározott három genotípus elérhető. Ugyanazt a jelölést használva, mint fent, hagyja, hogy a D j és a p j a megfigyelt szekvenálási adatok legyenek a J helyszínen, illetve a megfelelő MAF. A genotípus valószínűsége, mivel a kisebb allélfrekvencia kiszámítható a Hardy-Weinberg egyensúly (HWE) feltételezésével. Ezután, feltételezve az egyének függetlenségét, a MAF valószínűsége ebben a helységben az összes n egyénre számított likelihoods terméke:

(2)

A P j ML becslését úgy lehet kiszámítani, hogy közvetlenül maximalizáljuk a korlátozott paramétertér valószínűségét a Broyden-Fletcher-Goldfarb-shanno (bfgs) módszer vagy a várakozás-maximalizáció (em) algoritmus segítségével . Az EM algoritmus használatakor minden egyes személy esetében kiszámítják a genotípus hátsó elvárását, és a posteriors átlagát ismételten frissítik. A bfgs implementációja gyorsabb volt, mint az EM algoritmus. Például ahhoz, hogy becsléseket szerezzen 100 000 webhelyről, a BFGS ~16 másodpercet vett igénybe, de az EM ~100 másodpercet vett igénybe. A sebességbeli különbség azonban végrehajtási specifikus lehet. Esetünkben mindkét módszer esetében abbahagytuk a paraméterek frissítését, amikor a valószínűség növekedése kevesebb volt, mint 0,001.

maximális valószínűségi becslés bizonytalan kisebb alléllal

a gyakorlatban gyakran a második leggyakoribb nukleotid az egyéneken keresztül használható kisebb allélként. Ritka SNP-k esetében (pl. MAF < 1%) azonban nehéz meghatározni, hogy melyik allél a kisebb allél, mivel egyes szövegekben mind a négy nukleotid jelenhet meg szekvenálási hibák miatt. Ennek a helyzetnek a kezelésére most leírunk egy valószínűségi keretet, amely figyelembe veszi a kisebb allél meghatározásának bizonytalanságát.

tegyük fel, hogy a site j ismerjük a fő allél M. Ne feledje, hogy annak eldöntése, hogy a két közös allél közül melyik valószínűleg a legfontosabb, nem fontos, mivel leginkább a ritka SNP-k frekvenciáinak becslésével foglalkozunk. Továbbá a köztes frekvenciájú allélok (körülbelül 50%) esetében a jelentős és a kisebb allél közötti különbség kevésbé fontos. A másik három nem fő nukleotid M1, m2 és m3. A 2. egyenletben bevezetett valószínűség rögzített fő allél m és rögzített kisebb allél m. ezért a kisebb allél kijelölésének bizonytalansága érdekében a valószínűségi függvény módosítható:

(3)

tovább, feltételezve, hogy a három lehetséges kisebb allél közül bármelyik egyformán valószínű, megkapjuk:

(4)

/div>

ahol . Mivel a nagyon kicsi lehet nagy adatkészletekkel (például sok egyénnél), hasznos kiszámítani a valószínűséget a naplómérlegben. Rendelje meg a három feltételes naplót (l(1), l(2), l(3))), ahol l(1) A legnagyobb. Akkor,

G-teszt segítségével úgynevezett genotípusok az asszociációs térképezés

Az egyesület tanulmányok, SNPs mutat jelentős különbségeket allél gyakorisága között esetben a vezérlők azt mondta, hogy társul a fenotípus az érdeklődés. Az asszociációs leképezés a következő generációs szekvenálási vizsgálatok adatainak felhasználásával végezhető el. Először olyan megközelítéseket tárgyalunk, amelyek megkövetelik az egyes genotípusok hívását, majd elvégezzük az egyesülés tesztjét az úgynevezett genotípusok használatával. Ebben a megközelítésben először egy genotípust hívnak minden egyes személy számára. A genotípusok szűrhetők vagy szűrhetők. Feltételezve, hogy a függetlenség keresztül az egyének, mind HWE, egy 2 × 2 készenléti táblázat épülhet a számlálás száma nagyobb, illetve kisebb allélek mind az esetben irányítja. Ez vezet a jól ismert valószínűsége arány teszt függetlenség, a G-teszt:

(5)

ahol O k,h a gyakoriság figyelhető meg egy cellát, majd E k,h a frekvencia várható alatt a null hipotézis, amely a allél gyakorisága ugyanaz között esetben irányítja. A jól ismert Pearson chi-négyzet teszt aszimptotikusan egyenértékű a G-teszttel. Ha a táblázat valódi genotípusokból származik, akkor a G-statisztika aszimptotikusan egy chi-négyzet eloszlást követ 1 fokú szabadsággal (χ2(1)). Tanulmányaink során azonban a G-statisztikát “úgynevezett” genotípusok segítségével állítjuk össze, így a HWE nem tarthat fenn a heterozigóták túl – és alulhívása miatt. Továbbá, a tesztstatisztika felépítése a “megfigyelt” genotípusok helyett az “úgynevezett” genotípusok számolásával valószínűleg extra variabilitást eredményez. Ezért a statisztikai elmélet már nem érvényes. Vegye figyelembe, hogy ha egy genotípust nem hívnak fel egy bizonyos személyre, az adatok hiányosnak tekinthetők, és nem szerepelnek a 2 × 2 táblázatban.

Valószínűsége arány teszt számviteli bizonytalanság a vizsgált genotípusok a társulási feltérképezése

Ahelyett, hogy hívja genotípusok, a valószínűség-keretrendszer lehetővé teszi, hogy a bizonytalanság a genotípusok meg a vizsgálatokat az egyes site-j-e a allél gyakorisága ugyanaz között esetben irányítja. Formálisan kiszámítjuk a H O hipotézisek valószínűségét : P j, 1 = p j, 2 (=p j, 0) és H A : p j, 1 ≠ p j, 2 ,ahol P j ,1 és P j, 2 a MAF-ek az esetekben, illetve az ellenőrzések.

Feltételezve, hogy a kisebb (m), illetve nagyobb (M) allélek ismert, a valószínűsége, hogy a kisebb allél gyakorisága lehet számítani leírt Egyenlet 2, valamint a valószínűsége arány teszt statisztika számítható:

(6)

ahol és az esetek és a kontrollok megfigyelt adatai, illetve és a a MAF-ok mle-je az esetekben, illetve a kontrolloknál.

Ha a kisebb allél ismeretlen, akkor a nullhipotézis szerinti valószínűséget a 3. egyenletnek megfelelően számítják ki, az LRT statisztikát pedig a következőképpen módosítják:

(7)

ahol d j a megfigyelt adat mindkét esetben és kontroll esetében, és az allélfrekvencia A null hipotézis szerint. Más jelölések ugyanazok, mint a 6.egyenletben.

MAF becslése szimulált adatokban

összehasonlítjuk az allélfrekvencia becsléseit a szimulált adatokon a valódi genotípusok (True) segítségével, úgynevezett genotípusok szűrés nélkül (Call NF), úgynevezett genotípusok szűréssel (f = 1; Call F), valamint a maximális valószínűségi módszer (ML). Ritka SNP-k esetében a kisebb allél típus gyakran nem nyilvánvaló. Genotípusok hívásakor a második leggyakoribb nukleotid a kisebb allél. Az ML-módszer közvetlenül magában foglalja a kisebb allél meghatározásának bizonytalanságát, és hacsak másként nem jelezzük, az ismeretlen kisebb allél módszer (3. egyenlet) eredményeit mutatjuk be. Vegye figyelembe, hogy az ismeretlen minor allél ML módszer az ismert minor allél ML módszerhez hasonlóan működik, de az előbbi jobb a nagyon ritka SNP-knél (további 1.fájl).

először azt értékeltük, hogy a különböző megközelítések mennyire képesek voltak megbecsülni a MAF-t 200 egyénben egy sor szekvenálási mélységben 1000 SNP-re, 5% – os valódi MAF-val. Az 1. ábra a becsült MAF-ek eloszlásának boxplotjait mutatja a négy különböző megközelítés alkalmazásával. Ahogy az várható volt, a nagyobb lefedettségi adatok, mint például az egyéni mélysége 12×, minden módszer végre, valamint amikor a genotípusok ismertek bizonyossággal (igaz). Amikor azonban a mélység csökken,az első genotípusok hívásával kapott MAF becslései elfogultak. Például a Call F módszerrel becsült medián MAF 5,3% 6× lefedettségnél, 12,5% pedig 2×. A felfelé irányuló elfogultság oka az, hogy nehezebb heterozigótákat hívni, mivel az igazi heterozigóták gyakran szekvenálási hibáknak tűnnek. Ezért több heterozigóta, mint a kisebb homozigóta, általában hiányzik a genotípus. Az úgynevezett genotípusokból származó MAF-becslések általános elfogultsága azonban nem mindig egy irányban van (az adatok nem jelennek meg). Érdekes módon a torzítás rosszabbnak tűnik a Call F módszernél, mint a Call NF módszernél. Ez a minta ellentmondásosnak tűnhet, mivel úgy tűnik, hogy a genotípus-hívások szűrése csökkenti a szekvenálási hiba heterozigóta hívásának valószínűségét. A Call F módszer azonban nagyobb mennyiségű hiányzó adatot eredményez, mivel a fő allél sok homozigótáját nem hívják szekvenálási hibák miatt. Így ebben az esetben a genotípusok szűrés nélküli hívása jobb stratégiának tűnik, mint a genotípusok szűrése a MAF becslésekor.

1. ábra
figure1

az allélfrekvencia becslései olyan helyszíneken, ahol a lefedettség különböző mélységeiben 5% – os valódi MAF-os. Minden mélységben 1000 helyet szimuláltak 200 személy segítségével, és minden helyszínen az allélfrekvencia becslését a következők alapján számítják ki: (1) valódi genotípusok (True); (2) szűrés nélküli genotípusok (Call NF); (3) szűréssel rendelkező genotípusok (Call F); és (4) a maximális valószínűségi módszer (ML). A becslési módszerek további részleteiről lásd: módszerek.

Az eredmények drámaian különböznek az új ML módszertől. Ez a módszer elfogulatlan becsléseket nyújt a MAF-ról (medián ~4,9%) számos mélységben. Még 2× – nál is, a becslések csak kissé nagyobb eltérést mutatnak, mint a valódi genotípusok alapján.

összehasonlítottuk a MAF különböző becsléseinek becsült átlagos négyzetes hibáját (MSE; várakozás () a szekvenálási mélységek tartományában (2.ábra). Az ML-módszer alacsonyabb MSE-vel rendelkezik, mint az 50 vagy 200 egyed hívási módszerei. Különösen a Call F módszer alapján kiszámított MSE sokkal magasabb, mint a többi módszernél, különösen akkor, ha a mélység csökken. A MAF valódi genotípusokon alapuló becsléseinek MSE-je az MSE alsó határát tükrözi, és a mintavételi variancia és a véges mintaméret miatt nem állandó a mélységekben. Használata 50 egyének, az MSE megközelítések 0.0005 egyre mélység, ha a minta mérete: 200 egyének, közeledik 0.0013 egyre mélység.

2. Ábra
figure2

azt Jelenti, squred hiba (MSE; Várható ) a négy különböző típusú allél gyakorisága estimators különböző méretben kapható (bal panel) de mélyben lefedettség (x-tengely). Minden mélységben az MSE-t négy különböző módszerrel készített allélfrekvencia-becslésekből számították ki: True, Call NF, Call F és ML (a módszerek részleteiről lásd az 1.ábra feliratát).

összességében az új ML módszer genotípushívási módszereket hajt végre.

Becslése egy megoszlása MAFs a szimulált adatok

Mi a következő megvizsgáljuk, hogy a különböző becslési módszerek végzett becslése aránya SNPs különböző frekvencián a lakosság (hasonló az oldal frekvencia spektrum de a lakosság alapján allél gyakoriság helyett mintavételi frekvencia). Itt szimuláltunk 20.000 SNP-t, ahol a valódi MAF-ek eloszlása követte a szokásos helyhez kötött eloszlást az 10,000 hatékony népességméretéhez (lásd a módszereket). Vegye figyelembe, hogy a gyakorlatban azonban nagyon nehéz megkülönböztetni egy nagyon ritka SNP-t a szekvenálási hibától. Ezért a valós adatokkal való összehasonlítás céljából elvetettük az SNP-ket, amelyek becsült MAF-értéke kevesebb, mint 2%. 3. ábra azt mutatja, aránya SNPs alá minden más frekvencia bin után, kivéve azokat, SNPs becsült MAF<2% – át.

3. Ábra
figure3

megoszlása allél gyakorisága SNPs szimulált feltételezve, hogy a standard stacionárius eloszlása allél-gyakoriságok. Minden mélységben (mindegyik panelen) 20 000 SNP-t szimuláltak, és minden egyes SNP esetében négy különböző módszerrel becsülték meg a MAF becsléseit (lásd az 1.ábra feliratát). Ezután minden módszerhez (minden színhez) csak a becsült allélfrekvenciákkal rendelkező helyek > 2%-ot használnak minden hisztogram (x-tengely) létrehozásához.

ahogy az várható volt, nagy lefedettségi mélységgel, például 10× egyénenként, minden módszer olyan becsült MAF eloszlásokat biztosít, amelyek hasonlóak a valódi genotípusok alapján várható eloszláshoz (3.ábra). A lefedettség sekélyebb mélysége, például egyénenként kevesebb, mint 4×, a Genotípushívási módszerekkel nyert MAF-eloszlások jelentősen eltérnek a valódi genotípusok alapján várható MAF-eloszlástól (3.ábra). Különösen ezek a módszerek túlbecsülik az alacsony frekvenciájú SNP-k arányát. Például az SNP-k várható aránya a második tartályban (becsült MAF 2-4% között) 18%. A megfelelő arány a Call NF módszer alapján 4× mélységben 26%, ami 1, 4-szer magasabb a vártnál. Az alacsony frekvenciájú SNP-k arányának túlzott becslése a szekvenálási hibák valódi heterozigótákkal való összetévesztése miatt következik be, ami a heterozigóta genotípusok túlcsordulását eredményezi. Ennek az inflációnak a nagysága különböző szűrővágásokon különbözik, de egy nagyobb vágás nem feltétlenül növeli vagy csökkenti az inflációt.

a kép teljesen más az ML módszernél. Az új ML-módszerrel kapott becsült MAF-Eloszlás szorosan követi a valódi eloszlást, még a lefedettség sekély mélységével is. Itt szinte nincs túlzott alacsony frekvenciájú SNP. 4× mélységben az SNP-k aránya a hisztogram második binjában 18,4%, ami nagyon közel áll a várt arányhoz (18%). Így a frekvenciaspektrum megbízhatóbb becslései alacsony lefedettségű adatokból készülhetnek valószínűségi megközelítésünk segítségével, mint a genotípus hívó megközelítések használatával.

asszociációs leképezés szimulált adatokban

összehasonlítjuk az olyan módszerek teljesítményét, amelyek az asszociációs tesztekben (G-teszt segítségével) valódi genotípusokként kezelik a kikövetkeztetett genotípusokat a valószínűségi Arány tesztünkhöz (LRT), amely a genotípusok bizonytalanságát jelenti. A tesztstatisztika eloszlását az esetek és a kontrollok közötti allélfrekvencia-különbség nélküli null hipotézis alapján vizsgáljuk. Összehasonlítjuk a különböző megközelítések erejét is.

meglehetősen nagy mintaméretekkel a standard aszimptotikus elmélet azt sugallja, hogy a null hipotézis szerint mind a G-statisztika, mind az LRT statisztika egy chi-négyzet eloszlást követ egy fokú szabadsággal (χ2(1)). Ezért összehasonlítottuk a hívási módszerek alapján kiszámított g-statisztika null eloszlását, valamint az LRT statisztikát a χ2 (1) eloszlással QQ-parcellákkal (4.ábra). 500 esetben szimuláltunk 5000 SNP-t különböző szekvenálási mélységekben, és olyan kontrollokat, ahol a MAF a genotípusok szimulálására 5% volt mindkét esetben és a kontrollok esetében. A valódi genotípusok alapján kiszámított g-statisztika eloszlása nagyon jó megfelelést mutat a χ2 (1) eloszlással. Az úgynevezett genotípusok alapján kiszámított g-statisztika eloszlása azonban lényegesen eltér a χ2 (1) eloszlástól. A genotípusok hívása, majd ezeknek a genotípusoknak a pontos kezelése hatalmas mennyiségű hamis pozitív jelet eredményez, ha a P-értékeket egy χ2(1) eloszlással számítják ki. Például 2× mélységben az SNP-k 11% – ának p-értéke kevesebb, mint 5% volt, szemben a várt 5% – kal. A hatást a variancia növekedése okozza, mivel a homozigóták heterozigótákként túlcsordulnak, az allélos tesztben, amelyet itt használnak az asszociáció kimutatására. Az olyan genotípusos tesztek, mint az Armitage trend test, amelyek robusztusak a Hardy-Weinberg egyensúlytól való eltérésekhez, nem mutatnak hasonló növekedést a hamis pozitív arányban (2.Kiegészítő fájl). Ezzel a megfigyeléssel összhangban az úgynevezett genotípusok szűrése a G-teszt használatakor a jelentős tesztek töredékének csökkenését eredményezi, bár a szűrés nem oldja meg teljesen a problémát. Másrészt az LRT statisztika csak nagyon enyhe eltérést mutat a χ2 (1) eloszlástól 2× vagy 5× mély lefedettség esetén.

4.ábra
figure4

QQ-parcellák, amelyek összehasonlítják a vizsgált statisztika null eloszlását a χ2(1) eloszlással. Minden oszlop egy másik tesztstatisztikának felel meg: (1) g-statisztika a valódi genotípusok (True) felhasználásával; (2)g-statisztika az úgynevezett genotípusok szűrése nélkül (Call NF); (3) G-statisztika, amelyet szűréssel (F hívás) rendelkező úgynevezett genotípusok alapján számítanak ki; és (4) a valószínűségi Arány tesztstatisztikája ismeretlen kisebb allélokkal (LRT). 500 esetet és 500 kontrollt feltételezve, a nullhipotézis szerint 5000 helyből álló halmazt szimuláltak 5% – os MAF-val, 2× (felső panelek) és 5× (alsó panelek) szekvenálási mélységgel. Az “infláció” tényező az egyes számok bal felső sarkában látható.

a különböző asszociációs tesztek mindegyikéhez vevőkészülék működési jellemző (ROC) görbéket is létrehoztunk. Ezek a görbék különböző hamis pozitív sebességgel mutatják a teszt teljesítményét. Mivel a tesztstatisztikák egy részének eloszlása nem követi a χ2(1) eloszlást a null hipotézis alapján, a tisztességes összehasonlítás érdekében az empirikus null eloszláson alapuló minden hamis pozitív arány kritikus értékét megkaptuk. A teljesítmény számítjuk, mint a frakció szimulált betegség loci, hogy van egy statisztika meghaladja a kritikus értéket. Összességében azt találjuk, hogy az LRT jobban teljesít, mint a G-teszt, bármelyik genotípus hívási módszer alapján (5.ábra). Például 5% – os hamis pozitív sebességgel és 5× – es szekvenálási mélységgel az 1% – os MAF-os és a 2-es relatív kockázat (RR) kimutatására szolgáló teljesítmény 51% az LRT-vel, de a teljesítmény szűrés nélküli hívási módszerrel 33% – ra, a szűréssel történő hívási módszerrel pedig 34% – ra csökken. Különösen alacsony mélységben a szűréssel rendelkező úgynevezett genotípusokra alkalmazott G-teszt nagyon rosszul teljesít (az 5. ábra bal oldali oszlopa). Ha összehasonlítjuk az LRT erejét az Armitage trend teszttel az úgynevezett genotípusok használatával, azt találjuk, hogy az LRT-nek is nagyobb ereje van, mint az Armitage trend tesztnek (további 3.Fájl). Ez arra utal, hogy ha valaki szeretné használni az úgynevezett genotípusok, szűrés őket alapján hívás bizalom vezethet áramkimaradás.

5.ábra
figure5

Receiver operating charactery (ROC) curves of four tests of association. A négy statisztika meghatározását lásd a 4. ábra feliratában. 500 esetet és 500 kontrollt feltételezve, 20 000 helyet szimuláltak A null alatt és az alternatíva alatt 2×, 5× és 10× (három oszlop) egyedi szekvenálási mélységben. Minden hamis pozitív sebességnél (x-tengely) a megfelelő kritikus értéket az empirikus null eloszlással számítottuk ki. Az igazi pozitív arányt (teljesítmény; y-tengely) úgy kaptuk meg, hogy a kórokozó helyek frakcióját a kritikus értéket meghaladó tesztstatisztikákkal számítottuk ki.

alkalmazás valós adatokra

elemeztük az Illumina technológiával 8×-es egyéni mélységben szekvenált betegség-asszociációs vizsgálat 200 exomját. A “SOAPsnp” program által generált genotípust használtuk következtetésünkre. További részletekért lásd: módszerek.

először megvizsgáltuk a MAF becsléseinek pontosságát a következő generációs szekvenálási adatokból 50 SNP-re, összehasonlítva őket a Szekvenom genotípus adatainak becsült MAF-jaival. Mind az ML módszert alkalmazó becslések, mind a szűrés nélküli genotípushívási módszer nagymértékben korrelál a Sequenom genotípus adataiból származó becslésekkel (azaz a 6.ábrán szereplő két becslés közötti Kis szabványosított különbség). A szűréssel történő genotípushíváson alapuló becslések azonban rossz megfelelést mutatnak a Szekvenom genotípus adataiból becsült frekvenciákkal, különösen akkor, ha a szekvenálási mélység alacsony. Érdekes, hogy van egy SNP, ahol a resequencing adatokból származó becsült MAF nagyon különbözik a Szekvenom genotípus adatokból kapott becsléstől, annak ellenére, hogy a szekvenálási mélység nagyon magas (14×). Pontosabban, a Sequenom genotípus adatainak becsült MAF-értéke 22,5%, de 17,2%, ha az ML-megközelítést alkalmazzák. Az Egyéni vizsgálat azt mutatja, hogy sok egyénnél a szekvenálási adatok alapján nagymértékben támogatott genotípus különbözik a Szekvenom genotípusoktól. Tekintettel arra, hogy ez az SNP vonatkozik sok olvas ezekben az egyénekben, és hogy a megfigyelt olvasási bázisok kiváló minőségű pontszámok (>Q20), valószínű, hogy a különbség miatt Sequenom genotiping hibák. Megjegyezzük, hogy van egy pár SNP, amelyben a becsült MAFs a genotípus hívó megközelítés szűrés nélkül úgy tűnik, hogy jobban megfelelnek a MAFs becsült Sequenom genotipizálás, mint a becslések ML megközelítés nem. Például egy SNP-nél a becsült MAF 25,7% a Sequenom genotípus adataiból, 25.9% A genotípus hívási módszeréből szűrés nélkül, 27,2% az ML módszerből. Az Egyéni vizsgálat azonban azt mutatja, hogy van néhány olyan személy, akiknek a szekvenálási adatokból származó úgynevezett genotípus különbözik a Szekvenom genotípustól. Ezekben az esetekben az úgynevezett genotípusok hibái megszűntek, így jobban megfelelnek a Sequenom genotípus adatoknak. Ezért ezeknek az SNP-knek nehéz megmondani, hogy melyik módszer a legjobban teljesít.

6. ábra
figure6

200 egyedből származó allélfrekvencia becslései a következő generációs szekvenálási adatok vs. Szekvenom genotípus adatok felhasználásával. Az allél gyakoriságának becsléséhez minden helyszínen csak olyan személyeket alkalmaztak, akik mind Szekvenom genotípus-adatokkal, mind szekvenálási adatokkal rendelkeznek. A szekvenálási adatok esetében a MAF becsléseit három különböző módszerrel (Call NF; Call F; és ML) értékeltük. A szabványosított különbség az egyes becslései szerint számított, mint a , ahol a vagy vagy a becsült MAFs a szekvencia adatok Sequenom genotípus adatok, illetve, n pedig az egyedszám használt becslési. Minden helyszín a négy tartály egyikébe van besorolva a lefedettség (szín) átlagos egyedi mélysége alapján: kevesebb, mint 4×, magasabb, mint 4×, de kevesebb, mint 8×, magasabb, mint 8×, de kevesebb, mint 16×, és magasabb, mint 16×.

Mi a következő megvizsgálta, hogy az eloszlás MAFs számítható több megközelítés szerte számos szekvenálás mélyén a következő generációs exome szekvencia adatok (7.Ábra). A becsült MAF <2%-kal eldobtuk az SNP-ket, mivel nehéz megkülönböztetni ezeket a nagyon alacsony frekvenciájú SNP-ket az adatkészlet szekvenálási hibáitól. További eltávolítottuk azokat a helyeket, ahol jelentős különbség volt (p-érték kevesebb, mint 10-5, rank-sum-teszt segítségével ) a minor és a major allélok olvasási alapjainak minőségi pontszámában. Ezek a helyek valószínűleg mesterséges SNP-k, amelyek a kísérleti eljárás során bevezetett helytelen leképezés vagy ismeretlen torzítások miatt fordulhatnak elő. Ezután az egyes helyeket a lefedettség mélysége alapján tartályokba soroltuk. Az SNP-k számát az egyes tartályokban az 1. táblázat mutatja. Ha az átlagos mélység kevesebb, mint 9×, a becsült MAF-ek eloszlása a genotípus-hívási módszerek alapján nagyon különbözik az ML-módszer alapján. Pontosabban, a genotípushívó megközelítések nagy mennyiségű alacsony frekvenciájú SNP-t eredményeznek (MAF 2% és 4% között). Ez a minta tükrözi a szimulációs tanulmányokban látottakat (3.ábra). Továbbá, a genotípus hívási módszerek esetében az allélfrekvencia-Eloszlás drámaian megváltozik, amikor a szekvenálási mélység megváltozik. Ezért, amint azt korábban tárgyaltuk, amikor a mélység nem túl magas, a genotipizálási hívási módszerek valószínűleg sok hamis SNP-t tartalmaznak, amelyek szekvenálási hibák. Ezek a hibák az alacsony frekvenciájú SNP-k feleslegeként jelennek meg a frekvenciaeloszlásban. Az ML-módszeren alapuló Eloszlás stabilabb az egész mélységben, de még mindig túl sok SNP van alacsony allélfrekvenciával, amelynek mélysége kisebb, mint 9×, összehasonlítva az alacsony frekvenciájú SNP-k arányával nagyobb mélységben.

7.ábra
figure7

a 200 szekvenált egyén exomjaiból becsült kisebb allélfrekvencia eloszlása. Minden helyszínen, a kisebb allél gyakoriságát négy különböző módszerrel becsülték meg: (1) Az ml-módszer ismeretlen kisebb alléllel, (2) az ML-módszer ismert vagy rögzített kisebb alléllel, (3) szűrés nélküli genotípusok hívása (Call NF), és (4) szűrés nélküli genotípusok hívása (Call F). Minden helyet a lefedettség mélysége alapján tartályokba sorolnak. Ezenkívül minden hisztogramban nem veszik figyelembe azokat a helyeket, ahol a becsült MAF kevesebb, mint 2%. Az elemzéshez használt SNP-k számát lásd az 1. táblázatban.

1. Táblázat Száma SNPs becsült MAF nagyobb, mint 2% – át használja az adott módszer (sor) belül minden bin (oszlop) által meghatározott átlagos sorrend mélység át egyének.

végül ezt az exome-resequencing adatot használtuk egy esettanulmány szimulálására. A null hipotézis alapján az asszociációs tesztstatisztikák eloszlásának vizsgálatához véletlenszerűen 100 személyt rendeltünk egy esetcsoporthoz, a másik 100-at pedig a kontrollcsoporthoz. A 2. kromoszómán lévő összes SNP esetében, MAF becslésekkel > 2% (az ismeretlen minor allele ML módszer alapján), az esetek és a kontrollok közötti allélfrekvencia-különbségeket teszteltük a G-statisztika kiszámításával, az úgynevezett genotípusok segítségével, mind szűrés nélkül, mind az LRT statisztikával. A 8.ábra a QQ parcellákat mutatja, amelyek összehasonlítják a tesztstatisztikák eloszlásait a χ2(1) standard eloszlással. Amint azt a szimulációs vizsgálatok is mutatják, a genotípusok szűrés nélküli hívásakor kiszámított g-statisztika null eloszlása lényegesen eltér a χ2 (1) eloszlástól. Az LRT statisztika null eloszlása azonban szorosan követi a χ2 (1) eloszlást. Az inflációs tényező 1,01, ami azt jelenti, hogy az LRT statisztika jól teljesít, ha a valós adatokra alkalmazzák.

8. Ábra
figure8

QQ-telkek, összehasonlítva az egyesület teszt statisztika allél gyakorisága közötti különbségek 100 esetek 100 szabályozza, hogy egy χ2(1) engedély. Az exome resequencing adatkészletben véletlenszerűen osztották ki a fenotípusokat az indivdiduumokhoz, így 100 eset és 100 kontroll létezik. Minden webhely esetében három statisztikát számítottak ki: a G-statisztika az úgynevezett genotípusok szűrés nélkül( Call NF), a G-statikus segítségével úgynevezett genotípusok szűrés (Call F), valamint az LRT statisztika. A hamis SNP-k felvételének minimalizálása érdekében az ML MAF becslésekkel rendelkező helyeket 2% – nál kisebb mértékben dobják el. Megjelenítési célokra a 2. kromoszómán található helyek eredményei jelennek meg. Megjegyezzük, hogy az inflációs tényező látható a bal felső sarokban minden QQ-telek.

Related Posts

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük