A kisebb allél a kevésbé gyakori allél a lakosság, változó helyszínen. Először két fő megközelítést írunk le a kisebb allélfrekvencia (MAF) becslésére a genom egy adott helyén. Az első megközelítés magában foglalja az egyes genotípusok levezetését,és a levezetett genotípusoknak a MAF becslésekor történő teljes pontosságát. Ezután megvizsgáljuk egy valószínűségi keret teljesítményét, amely közvetlenül figyelembe veszi a genotípusok hozzárendelésének bizonytalanságát. Munkánk során feltételezzük, hogy minden szegregáló webhely biallelikus.
- a MAF becslése az úgynevezett genotípusokból
- az allélfrekvencia maximális valószínűségi becslése
- maximális valószínűségi becslés bizonytalan kisebb alléllal
- G-teszt segítségével úgynevezett genotípusok az asszociációs térképezés
- Valószínűsége arány teszt számviteli bizonytalanság a vizsgált genotípusok a társulási feltérképezése
- MAF becslése szimulált adatokban
- Becslése egy megoszlása MAFs a szimulált adatok
- asszociációs leképezés szimulált adatokban
- alkalmazás valós adatokra
a MAF becslése az úgynevezett genotípusokból
a MAF becslésének egyik módja a következő generációs szekvenálási adatokból az, hogy először genotípust hívunk minden egyes személy számára szekvenálási adatok felhasználásával, majd ezeket a genotípusokat úgy használjuk, mintha azok igazak lennének. A genotípusadatok és a Sanger szekvenálási adatok esetében hagyományosan ezt a megközelítést alkalmazták. Nem világos, hogy milyen jól fog működni, ha a következő generációs szekvenálási adatokra alkalmazzák.
a következő generációs szekvenálási adatokból az egyes egyedek genotípusát maximális valószínűségi megközelítéssel lehet következtetni. Minden egyes helyszínen j, minden egyes i esetében a három lehetséges genotípus valószínűsége (feltételezve, hogy ismerjük a kisebb allélt) a következő:
ahol a D i,j a megfigyelt szekvencia adatok az egyes én-telepen j, g, i , j ∈ {0, 1, 2} az a szám, kisebb allélek található a genotípus az egyes, a vagy ellenőrzés sorrendi hibák olvasni bázis tulajdonságait, ill. A megfigyelt szekvenálási adatok minden egyes ember számára úgy gondolhatók, mint az olvasás összehangolása a J helyszínen, figyelembe véve az olvasási minőségi pontszámokat. Ez genotípus valószínűségként jelenik meg, és megtalálható a genotípus valószínűségi fájlban (GLF), amelyet számos olyan programban állítanak elő, amelyek elemzik a következő generációs szekvenálási adatokat, mint például a SOAPsnp és a MAQ .
a genotípus egy adott egyénhez való hozzárendeléséhez a három lehetséges genotípus valószínűsége kiszámítható az egyén számára. Ezután a legnagyobb valószínűséggel rendelkező genotípus hozzárendelhető. A kutatók azonban gyakran inkább a szigorúbb hívási kritériumot részesítik előnyben, és nem rendelnek genotípust az egyénhez, kivéve, ha a legvalószínűbb genotípus lényegesen valószínűbb, mint a második legvalószínűbb. Itt a három lehetséges genotípus sorrendje hasonló: , ahol g(k)megfelel a K th legnagyobb valószínűségével rendelkező genotípusnak. Egy adott f küszöbértékkel a G (1) genotípust hívhatjuk, ha . Ellenkező esetben nem neveznek genotípust, és az egyén genotípusa hiányzik. Az F közös küszöbértéke 1, ami azt jelzi, hogy a legvalószínűbb genotípus legalább 10-szer nagyobb valószínűséggel, mint a második legvalószínűbb. Vegye figyelembe, hogy az ilyen típusú szűrés nagyobb bizalmat eredményezhet az “úgynevezett” genotípus esetében, de több hiányzó adatot is eredményez.
az allélfrekvencia maximális valószínűségi becslése
ahelyett, hogy a MAF-t az úgynevezett genotípusokból becsülnék, a Kim et al által bevezetett maximális valószínűségi (ML) módszer. (Lásd még Lynch hasonló megközelítést) közvetlenül becsüli a MAFs-t, és figyelembe veszi a genotípus bizonytalanságát. Pontosabban, mivel egy kisebb allél, a valószínűsége megfigyelése a szekvencia adatok minden egyes i kapunk összegezve a valószínűségek megfelelő mindhárom lehetséges genotípusok.
tegyük fel, hogy az 1.egyenletben meghatározott három genotípus elérhető. Ugyanazt a jelölést használva, mint fent, hagyja, hogy a D j és a p j a megfigyelt szekvenálási adatok legyenek a J helyszínen, illetve a megfelelő MAF. A genotípus valószínűsége, mivel a kisebb allélfrekvencia kiszámítható a Hardy-Weinberg egyensúly (HWE) feltételezésével. Ezután, feltételezve az egyének függetlenségét, a MAF valószínűsége ebben a helységben az összes n egyénre számított likelihoods terméke:
A P j ML becslését úgy lehet kiszámítani, hogy közvetlenül maximalizáljuk a korlátozott paramétertér valószínűségét a Broyden-Fletcher-Goldfarb-shanno (bfgs) módszer vagy a várakozás-maximalizáció (em) algoritmus segítségével . Az EM algoritmus használatakor minden egyes személy esetében kiszámítják a genotípus hátsó elvárását, és a posteriors átlagát ismételten frissítik. A bfgs implementációja gyorsabb volt, mint az EM algoritmus. Például ahhoz, hogy becsléseket szerezzen 100 000 webhelyről, a BFGS ~16 másodpercet vett igénybe, de az EM ~100 másodpercet vett igénybe. A sebességbeli különbség azonban végrehajtási specifikus lehet. Esetünkben mindkét módszer esetében abbahagytuk a paraméterek frissítését, amikor a valószínűség növekedése kevesebb volt, mint 0,001.
maximális valószínűségi becslés bizonytalan kisebb alléllal
a gyakorlatban gyakran a második leggyakoribb nukleotid az egyéneken keresztül használható kisebb allélként. Ritka SNP-k esetében (pl. MAF < 1%) azonban nehéz meghatározni, hogy melyik allél a kisebb allél, mivel egyes szövegekben mind a négy nukleotid jelenhet meg szekvenálási hibák miatt. Ennek a helyzetnek a kezelésére most leírunk egy valószínűségi keretet, amely figyelembe veszi a kisebb allél meghatározásának bizonytalanságát.
tegyük fel, hogy a site j ismerjük a fő allél M. Ne feledje, hogy annak eldöntése, hogy a két közös allél közül melyik valószínűleg a legfontosabb, nem fontos, mivel leginkább a ritka SNP-k frekvenciáinak becslésével foglalkozunk. Továbbá a köztes frekvenciájú allélok (körülbelül 50%) esetében a jelentős és a kisebb allél közötti különbség kevésbé fontos. A másik három nem fő nukleotid M1, m2 és m3. A 2. egyenletben bevezetett valószínűség rögzített fő allél m és rögzített kisebb allél m. ezért a kisebb allél kijelölésének bizonytalansága érdekében a valószínűségi függvény módosítható:
tovább, feltételezve, hogy a három lehetséges kisebb allél közül bármelyik egyformán valószínű, megkapjuk:
ahol . Mivel a nagyon kicsi lehet nagy adatkészletekkel (például sok egyénnél), hasznos kiszámítani a valószínűséget a naplómérlegben. Rendelje meg a három feltételes naplót (l(1), l(2), l(3))), ahol l(1) A legnagyobb. Akkor,
G-teszt segítségével úgynevezett genotípusok az asszociációs térképezés
Az egyesület tanulmányok, SNPs mutat jelentős különbségeket allél gyakorisága között esetben a vezérlők azt mondta, hogy társul a fenotípus az érdeklődés. Az asszociációs leképezés a következő generációs szekvenálási vizsgálatok adatainak felhasználásával végezhető el. Először olyan megközelítéseket tárgyalunk, amelyek megkövetelik az egyes genotípusok hívását, majd elvégezzük az egyesülés tesztjét az úgynevezett genotípusok használatával. Ebben a megközelítésben először egy genotípust hívnak minden egyes személy számára. A genotípusok szűrhetők vagy szűrhetők. Feltételezve, hogy a függetlenség keresztül az egyének, mind HWE, egy 2 × 2 készenléti táblázat épülhet a számlálás száma nagyobb, illetve kisebb allélek mind az esetben irányítja. Ez vezet a jól ismert valószínűsége arány teszt függetlenség, a G-teszt:
ahol O k,h a gyakoriság figyelhető meg egy cellát, majd E k,h a frekvencia várható alatt a null hipotézis, amely a allél gyakorisága ugyanaz között esetben irányítja. A jól ismert Pearson chi-négyzet teszt aszimptotikusan egyenértékű a G-teszttel. Ha a táblázat valódi genotípusokból származik, akkor a G-statisztika aszimptotikusan egy chi-négyzet eloszlást követ 1 fokú szabadsággal (χ2(1)). Tanulmányaink során azonban a G-statisztikát “úgynevezett” genotípusok segítségével állítjuk össze, így a HWE nem tarthat fenn a heterozigóták túl – és alulhívása miatt. Továbbá, a tesztstatisztika felépítése a “megfigyelt” genotípusok helyett az “úgynevezett” genotípusok számolásával valószínűleg extra variabilitást eredményez. Ezért a statisztikai elmélet már nem érvényes. Vegye figyelembe, hogy ha egy genotípust nem hívnak fel egy bizonyos személyre, az adatok hiányosnak tekinthetők, és nem szerepelnek a 2 × 2 táblázatban.
Valószínűsége arány teszt számviteli bizonytalanság a vizsgált genotípusok a társulási feltérképezése
Ahelyett, hogy hívja genotípusok, a valószínűség-keretrendszer lehetővé teszi, hogy a bizonytalanság a genotípusok meg a vizsgálatokat az egyes site-j-e a allél gyakorisága ugyanaz között esetben irányítja. Formálisan kiszámítjuk a H O hipotézisek valószínűségét : P j, 1 = p j, 2 (=p j, 0) és H A : p j, 1 ≠ p j, 2 ,ahol P j ,1 és P j, 2 a MAF-ek az esetekben, illetve az ellenőrzések.
Feltételezve, hogy a kisebb (m), illetve nagyobb (M) allélek ismert, a valószínűsége, hogy a kisebb allél gyakorisága lehet számítani leírt Egyenlet 2, valamint a valószínűsége arány teszt statisztika számítható:
ahol és az esetek és a kontrollok megfigyelt adatai, illetve és a a MAF-ok mle-je az esetekben, illetve a kontrolloknál.
Ha a kisebb allél ismeretlen, akkor a nullhipotézis szerinti valószínűséget a 3. egyenletnek megfelelően számítják ki, az LRT statisztikát pedig a következőképpen módosítják:
ahol d j a megfigyelt adat mindkét esetben és kontroll esetében, és az allélfrekvencia A null hipotézis szerint. Más jelölések ugyanazok, mint a 6.egyenletben.
MAF becslése szimulált adatokban
összehasonlítjuk az allélfrekvencia becsléseit a szimulált adatokon a valódi genotípusok (True) segítségével, úgynevezett genotípusok szűrés nélkül (Call NF), úgynevezett genotípusok szűréssel (f = 1; Call F), valamint a maximális valószínűségi módszer (ML). Ritka SNP-k esetében a kisebb allél típus gyakran nem nyilvánvaló. Genotípusok hívásakor a második leggyakoribb nukleotid a kisebb allél. Az ML-módszer közvetlenül magában foglalja a kisebb allél meghatározásának bizonytalanságát, és hacsak másként nem jelezzük, az ismeretlen kisebb allél módszer (3. egyenlet) eredményeit mutatjuk be. Vegye figyelembe, hogy az ismeretlen minor allél ML módszer az ismert minor allél ML módszerhez hasonlóan működik, de az előbbi jobb a nagyon ritka SNP-knél (további 1.fájl).
először azt értékeltük, hogy a különböző megközelítések mennyire képesek voltak megbecsülni a MAF-t 200 egyénben egy sor szekvenálási mélységben 1000 SNP-re, 5% – os valódi MAF-val. Az 1. ábra a becsült MAF-ek eloszlásának boxplotjait mutatja a négy különböző megközelítés alkalmazásával. Ahogy az várható volt, a nagyobb lefedettségi adatok, mint például az egyéni mélysége 12×, minden módszer végre, valamint amikor a genotípusok ismertek bizonyossággal (igaz). Amikor azonban a mélység csökken,az első genotípusok hívásával kapott MAF becslései elfogultak. Például a Call F módszerrel becsült medián MAF 5,3% 6× lefedettségnél, 12,5% pedig 2×. A felfelé irányuló elfogultság oka az, hogy nehezebb heterozigótákat hívni, mivel az igazi heterozigóták gyakran szekvenálási hibáknak tűnnek. Ezért több heterozigóta, mint a kisebb homozigóta, általában hiányzik a genotípus. Az úgynevezett genotípusokból származó MAF-becslések általános elfogultsága azonban nem mindig egy irányban van (az adatok nem jelennek meg). Érdekes módon a torzítás rosszabbnak tűnik a Call F módszernél, mint a Call NF módszernél. Ez a minta ellentmondásosnak tűnhet, mivel úgy tűnik, hogy a genotípus-hívások szűrése csökkenti a szekvenálási hiba heterozigóta hívásának valószínűségét. A Call F módszer azonban nagyobb mennyiségű hiányzó adatot eredményez, mivel a fő allél sok homozigótáját nem hívják szekvenálási hibák miatt. Így ebben az esetben a genotípusok szűrés nélküli hívása jobb stratégiának tűnik, mint a genotípusok szűrése a MAF becslésekor.