alela minoră este alela mai puțin frecventă din populație la un sit variabil. Mai întâi descriem două abordări principale pentru a estima frecvența alelelor minore (MAF) la un anumit sit din genom. Prima abordare implică deducerea genotipurilor individuale și tratarea acestor genotipuri deduse ca fiind complet exacte atunci când se estimează MAF. Apoi examinăm performanța unui cadru de probabilitate care ia în considerare în mod direct incertitudinea în atribuirea genotipurilor. De-a lungul activității noastre, presupunem că toate site-urile de segregare sunt bialelice.
- estimarea MAF din genotipuri numite
- estimarea probabilității maxime a frecvenței alelelor
- estimator de probabilitate maximă cu alelă minoră incertă
- g-test folosind numite genotipuri pentru cartografierea asocierii
- testul raportului de probabilitate reprezentând incertitudinea în genotipurile observate pentru maparea asocierii
- estimarea MAF în datele simulate
- estimarea unei distribuții a MAF din datele simulate
- maparea Asocierii în datele simulate
- aplicare la date reale
estimarea MAF din genotipuri numite
o modalitate de a estima MAF din datele de secvențiere de generație următoare este de a apela mai întâi un genotip pentru fiecare individ folosind date de secvențiere și apoi de a folosi acele genotipuri ca și cum ar fi cele adevărate. Aceasta a fost abordarea utilizată în mod tradițional pentru datele genotipului și datele de secvențiere Sanger. Nu este clar cât de bine va funcționa atunci când este aplicat datelor de secvențiere de generație următoare.
o abordare cu probabilitate maximă poate fi utilizată pentru a deduce genotipul pentru fiecare individ din datele de secvențiere de generație următoare. La fiecare sit j, pentru fiecare individ i, probabilitatea pentru fiecare dintre cele trei genotipuri posibile (presupunând că cunoaștem alela minoră) este dată ca:
unde D i,j sunt datele de secvențiere observate la individul i la locul j, g i , j {0, 1, 2} este numărul de alele minore conținute în genotipul fiecărui individ și și controlul erorilor de secvențiere și, respectiv, citirea calităților de bază. Datele de secvențiere observate pentru fiecare individ pot fi considerate ca alinierea citirilor la site-ul j luând în considerare scorurile de calitate a citirii. Aceasta este reprezentată ca probabilitatea genotipului și se găsește în fișierul de probabilitate a genotipului (GLF) care este produs în multe programe care analizează datele de secvențiere de generație următoare, cum ar fi SOAPsnp și MAQ .
pentru a atribui un genotip unui anumit individ, probabilitatea fiecăruia dintre cele trei genotipuri posibile poate fi calculată pentru individ. Genotipul cu cea mai mare probabilitate poate fi apoi atribuit. Cu toate acestea, cercetătorii preferă adesea un criteriu de apelare mai strict și nu vor atribui un genotip unui individ decât dacă genotipul cel mai probabil este substanțial mai probabil decât cel de-al doilea cel mai probabil. Aici cele trei genotipuri posibile sunt sortate după probabilitățile lor: , unde g(k)corespunde genotipului cu cea mai mare probabilitate k. Cu un prag dat f, se poate apela genotipul g (1) dacă . În caz contrar, un genotip nu este numit și genotipul individului este considerat lipsă. O valoare comună a pragului f este 1, indicând faptul că genotipul cel mai probabil este de cel puțin 10 ori mai probabil decât cel de-al doilea cel mai probabil. Rețineți că acest tip de filtrare poate duce la o încredere mai mare pentru genotipul „numit”, dar are ca rezultat și mai multe date lipsă.
estimarea probabilității maxime a frecvenței alelelor
în loc de estimarea MAF din genotipurile numite, o metodă de probabilitate maximă (ML) introdusă de Kim și colab. (a se vedea, de asemenea, Lynch pentru o abordare similară) estimează direct MAF și ia în considerare incertitudinea genotipului. Mai exact, având în vedere o alelă minoră, probabilitatea de a observa datele secvenței la fiecare individ i se obține prin însumarea probabilităților corespunzătoare tuturor celor trei genotipuri posibile.
Să presupunem că cele trei probabilități de genotip definite în ecuația 1 sunt disponibile. Folosind aceeași notație ca mai sus, fie D j și p j datele de secvențiere observate la site-ul j și, respectiv, MAF corespunzător. Probabilitatea genotipului dat fiind că frecvența alelelor minore poate fi calculată prin asumarea echilibrului Hardy-Weinberg (HWE). Apoi, presupunând independența în rândul indivizilor, probabilitatea MAF la acest locus este un produs al tuturor probabilităților calculate la toți n indivizi:
estimarea ML A p j poate fi calculată fie prin maximizarea directă a probabilității pentru un spațiu de parametri restricționat folosind metoda Broyden-Fletcher-metoda Goldfarb-Shanno (bfgs) sau folosind algoritmul expectation-maximization (em). Când se utilizează algoritmul EM, așteptarea posterioară a unui genotip este calculată pentru fiecare individ, iar media acelor posteriori este actualizată în mod repetat. Implementarea noastră a BFGS a fost mai rapidă decât algoritmul EM. De exemplu, pentru a obține estimări de la 100.000 de site-uri, BFG-urile au durat ~16 secunde, dar EM au durat ~100 de secunde. Cu toate acestea, diferența de viteză poate fi specifică implementării. În cazul nostru, pentru ambele metode, am oprit actualizarea parametrilor atunci când creșterea probabilității a fost mai mică de 0,001.
estimator de probabilitate maximă cu alelă minoră incertă
în practică, adesea a doua nucleotidă cea mai comună la indivizi poate fi utilizată ca alelă minoră. Cu toate acestea, pentru SNP-uri rare (de exemplu, MAF < 1%), este greu de determinat care alelă este alela minoră, deoarece toate cele patru nucleotide pot apărea în unele citiri din cauza erorilor de secvențiere. Pentru a face față acestei situații, descriem acum un cadru de probabilitate care ia în considerare incertitudinea în determinarea alelei minore.
Să presupunem că pentru site-ul j cunoaștem alela majoră M. Rețineți că a decide care dintre cele două alele comune este probabil să fie cea majoră nu este important, deoarece suntem în mare parte preocupați de estimarea frecvențelor la SNP-uri rare. Mai mult, pentru alelele cu frecvențe intermediare (aproximativ 50%), distincția dintre alela majoră și cea minoră este mai puțin importantă. Atribuiți celelalte trei nucleotide non-majore m1, m2 și M3. Probabilitatea introdusă în ecuația 2 presupune o alelă majoră fixă M și o alelă minoră fixă m. prin urmare, pentru a permite incertitudinea în desemnarea alelei minore, funcția de probabilitate poate fi modificată ca:
Mai mult, presupunând că oricare dintre cele trei alele minore posibile este la fel de probabilă, obținem:
unde . Deoarece poate fi foarte mic cu seturi mari de date (de exemplu, cu multe persoane), este util să calculați probabilitatea în scara jurnal. Ordonați cele trei probabilități condiționale ale Jurnalului (l(1), l(2), l(3)), unde l(1) este cel mai mare. Apoi,
g-test folosind numite genotipuri pentru cartografierea asocierii
în studiile de asociere, SNP-urile care prezintă diferențe semnificative în frecvența alelelor între cazuri și controale se spune că sunt asociate cu fenotipul de interes. Maparea asocierii poate fi efectuată utilizând date din studii de secvențiere de generație următoare. Mai întâi discutăm abordări care necesită apelarea genotipurilor individuale și apoi efectuăm un test pentru asociere folosind genotipurile numite. În această abordare, un genotip este chemat mai întâi pentru fiecare individ. Genotipurile pot fi filtrate sau nefiltrate. Presupunând independența între indivizi și HWE, se poate construi un tabel de contingență de 2 XT 2 prin numărarea numărului de alele majore și minore atât în cazuri, cât și în controale. Acest lucru duce la binecunoscutul test al raportului de probabilitate pentru independență, testul G:
unde O k,h este frecvența observată într-o celulă și E K, h este frecvența așteptată în ipoteza nulă în care frecvența alelelor este aceeași între cazuri și controale. Cunoscutul test chi-pătrat al lui Pearson este echivalent asimptotic cu testul G. Dacă tabelul este generat din genotipuri adevărate, atunci g-statistica urmează asimptotic o distribuție chi-pătrată cu 1 grad de libertate [CT2 (1)]. Cu toate acestea, în studiile noastre, construim statistica G folosind genotipuri „numite”, astfel încât HWE poate să nu se mențină din cauza supra-și sub – apelării heterozigoților. Mai mult, construirea statisticii testului prin numărarea genotipurilor „numite” în loc de genotipurile „observate” introduce probabil o variabilitate suplimentară. Prin urmare, teoria statistică poate să nu mai fie valabilă. Rețineți că atunci când un genotip nu este solicitat pentru o anumită persoană, datele sunt considerate lipsă și nu sunt incluse în tabelul 2 din 2.
testul raportului de probabilitate reprezentând incertitudinea în genotipurile observate pentru maparea asocierii
în loc să numească genotipuri, cadrul de probabilitate permite incertitudinea în genotipuri și testează la fiecare sit j dacă frecvența alelelor este aceeași între cazuri și controale. Formal, calculăm probabilitatea ipotezelor H O : p j ,1 = p j, 2 (=p j ,0) și H A : p j, 1 p j, 2, unde p j, 1 și p j ,2 sunt MAF în cazuri și, respectiv, controale.
presupunând că sunt cunoscute alele minore (m) și majore (M), probabilitatea frecvenței alelelor minore poate fi calculată așa cum este descris în ecuația 2, iar statistica testului raportului de probabilitate este calculată ca:
unde și sunt datele observate pentru cazuri și, respectiv, pentru controale și și Sunt mle-urile MAF în cazuri și, respectiv, controale.
dacă alela minoră este necunoscută, probabilitatea sub ipoteza nulă este calculată ca în ecuația 3, iar statistica LRT este modificată ca:
unde D j sunt datele observate atât pentru cazuri, cât și pentru controale și este frecvența alelei sub ipoteza nulă. Alte notații sunt aceleași ca în ecuația 6.
estimarea MAF în datele simulate
comparăm estimările frecvenței alelelor pe datele simulate folosind genotipuri adevărate (True), numite genotipuri fără filtrare (Call NF), numite genotipuri cu filtrare (f = 1; Call F) și metoda probabilității maxime (ML). Pentru SNP-urile rare, tipul de alelă minoră nu este adesea evident. La apelarea genotipurilor, se presupune că a doua nucleotidă cea mai comună este alela minoră. Metoda ML încorporează direct incertitudinea în determinarea alelei minore și, dacă nu se specifică altfel, sunt prezentate rezultatele folosind metoda alelei minore necunoscute (ecuația 3). Rețineți că metoda ml de alelă minoră necunoscută funcționează similar cu metoda ml de alelă minoră cunoscută, dar prima este mai bună pentru SNP-uri foarte rare (fișier suplimentar 1).
am evaluat mai întâi cât de bine au putut diferitele abordări să estimeze MAF la 200 de indivizi într-o gamă de adâncimi de secvențiere pentru 1.000 SNP-uri cu un MAF adevărat de 5%. Figura 1 prezintă boxplots distribuțiilor de MAF estimate folosind cele patru abordări diferite. Așa cum era de așteptat, pentru date de acoperire mai mari, cum ar fi o adâncime individuală de 12 centi, toate metodele funcționează, precum și atunci când genotipurile sunt cunoscute cu certitudine (adevărat). Cu toate acestea, atunci când adâncimea scade, estimările MAF obținute prin prima chemare a genotipurilor devin părtinitoare. De exemplu, valoarea mediană a MAF estimată prin metoda apelului F este de 5,3% la acoperirea de 6 centimi și este de 12,5% la 2 centimi. Motivul prejudecății ascendente este că devine mai greu să se numească heterozigoți, deoarece heterozigoții adevărați arată adesea ca erori de secvențiere. Prin urmare, mai mulți heterozigoți decât homozigoții minori tind să aibă genotipuri lipsă. Cu toate acestea, tendința generală a estimărilor MAF din genotipurile numite nu este întotdeauna într-o singură direcție (datele nu sunt prezentate). Interesant este că părtinirea pare a fi mai rea pentru metoda apelului F decât metoda apelului NF. Acest model poate părea contra-intuitiv, deoarece filtrarea apelurilor genotipului ar părea să scadă probabilitatea de a numi o eroare de secvențiere un heterozigot. Cu toate acestea, metoda apelului F are ca rezultat și o cantitate mai mare de date lipsă, deoarece mulți homozigoți pentru alela majoră nu vor fi chemați din cauza erorilor de secvențiere. Astfel, în acest caz, apelarea genotipurilor fără filtrare pare a fi strategia mai bună decât filtrarea genotipurilor atunci când se încearcă estimarea MAF.
rezultatele sunt dramatic diferite pentru noua metodă ML. Această metodă oferă estimări imparțiale ale MAF (mediană de ~4,9%) într-o gamă de adâncimi. Chiar și la 2 centimetrii, estimările arată doar o variație puțin mai mare decât cele bazate pe genotipurile adevărate.
am comparat, de asemenea, eroarea medie pătrată estimată (MSE; Expectation () a diferitelor estimări ale MAF într-o gamă de adâncimi de secvențiere (Figura 2). Metoda ML are un MSE mai mic decât metodele de apelare cu 50 sau 200 de persoane. În special, MSE calculat pe baza metodei apelului F este mult mai mare decât cele din celelalte metode, mai ales atunci când adâncimea scade. MSE a estimărilor MAF bazate pe genotipurile adevărate reflectă limita inferioară a MSE și nu este constantă pe adâncimi datorită varianței eșantionării și a dimensiunii finite a eșantionului. Folosind 50 de indivizi, MSE se apropie de 0,0005 odată cu creșterea adâncimii și atunci când se utilizează o dimensiune a eșantionului de 200 de indivizi, se apropie de 0,0013 odată cu creșterea adâncimii.
În general, noua metodă ML depășește metodele de apelare a genotipului.
estimarea unei distribuții a MAF din datele simulate
vom examina în continuare modul în care diferitele abordări de estimare efectuate în estimarea proporției SNP la frecvențe diferite în populație (similar cu spectrul de frecvență al site-ului, dar bazat pe frecvența alelei populației în loc de frecvența eșantionului). Aici am simulat 20.000 SNP-uri în care distribuția MAF-urilor adevărate a urmat distribuția staționară standard pentru o dimensiune efectivă a populației de 10.000 (vezi metode). Rețineți că, în practică, este foarte dificil să distingem un SNP foarte rar de o eroare de secvențiere. Prin urmare, în scopul comparării cu datele reale, am eliminat SNP-urile cu MAF estimat mai mic de 2%. Figura 3 arată proporția SNP-urilor care se încadrează în fiecare coș de frecvență diferit după excluderea acelor SNP-uri cu MAF estimat<2%.
după cum era de așteptat, cu o adâncime mare de acoperire, cum ar fi 10 la sută pe individ, toate metodele oferă distribuții estimate ale MAF care sunt similare distribuției așteptate pe baza genotipurilor adevărate (Figura 3). Cu o adâncime de acoperire mai mică, cum ar fi mai mică de 4 centimetri pe individ, distribuțiile MAF obținute prin metode de apelare a genotipului se îndepărtează semnificativ de distribuția MAF așteptată bazată pe genotipuri adevărate (Figura 3). În special, aceste metode supraevaluează proporția SNP-urilor cu frecvență joasă. De exemplu, proporția așteptată de SNP-uri în al doilea coș (MAF estimat între 2-4%) este de 18%. Proporția corespunzătoare bazată pe metoda Call NF la o adâncime de 4 centi este de 26%, ceea ce este de 1,4 ori mai mare decât se aștepta. Supraevaluarea proporției SNP-urilor cu frecvență joasă apare din cauza confuziei erorilor de secvențiere cu heterozigoți adevărați, ceea ce duce la supraevaluarea genotipurilor heterozigote. Magnitudinea acestei inflații diferă între diferite limite de filtrare, dar o limită mai mare nu crește sau scade neapărat inflația.
Imaginea este complet diferită pentru metoda ML. Distribuția estimată a MAF obținută din noua metodă ML urmărește îndeaproape distribuția adevărată chiar și cu adâncimi mici de acoperire. Aici nu există aproape nici un exces de SNP-uri cu frecvență joasă. La o adâncime de 4%, proporția SNP – urilor din al doilea coș al histogramei este de 18,4%, ceea ce este foarte aproape de proporția așteptată (18%). Astfel, estimări mai fiabile ale spectrului de frecvență pot fi făcute din date cu acoperire redusă prin utilizarea abordării noastre de probabilitate decât prin utilizarea abordărilor de apelare a genotipului.
maparea Asocierii în datele simulate
comparăm performanța metodelor care tratează genotipurile deduse ca genotipuri adevărate în testele de asociere (folosind un test G) cu testul nostru de probabilitate (LRT) care explică incertitudinea în genotipuri. Examinăm distribuția statisticii testului sub ipoteza nulă a absenței diferenței de frecvență a alelei între cazuri și controale. De asemenea, comparăm puterea diferitelor abordări.
cu dimensiuni destul de mari ale eșantionului, teoria asimptotică standard sugerează că, sub ipoteza nulă, atât statistica G, cât și statistica LRT urmează o distribuție chi-pătrată cu un grad de libertate (XV2(1)). Prin urmare, am comparat distribuția nulă a statisticii G calculată pe baza metodelor de apelare, precum și statistica LRT cu distribuția inkt2(1) Folosind parcele QQ (Figura 4). Am simulat 5.000 SNP-uri într-o varietate de adâncimi de secvențiere în 500 de cazuri și controale în care MAF folosit pentru a simula genotipurile a fost de 5% atât în cazuri, cât și în controale. Distribuția g-statisticii calculată folosind genotipurile adevărate arată o corespondență foarte bună cu o distribuție de la numărul 2(1). Cu toate acestea, distribuția statisticii G calculată pe baza genotipurilor numite se îndepărtează în mod substanțial de la o distribuție de la cifra de 2(1). Apelarea genotipurilor și apoi tratarea acestor genotipuri ca fiind exacte produce un exces vast de semnale fals pozitive dacă valorile p sunt calculate folosind o distribuție de la 7(1). De exemplu, la o adâncime de 2%, 11% dintre SNP-uri au avut o valoare p mai mică de 5%, comparativ cu 5% așteptat. Efectul este cauzat de o creștere a varianței, datorită supraaglomerării homozigoților ca heterozigoți, în testul alelic utilizat aici pentru detectarea asocierii. Testele genotipice, cum ar fi testul tendinței Armitage, care sunt robuste la abaterile de la echilibrul Hardy-Weinberg, nu prezintă o creștere similară a ratei fals pozitive (fișier suplimentar 2). În concordanță cu această observație, filtrarea genotipurilor numite are ca rezultat o scădere a fracțiunii testelor semnificative atunci când se utilizează testul G, deși filtrarea nu rezolvă complet problema. Pe de altă parte, statistica LRT arată doar o foarte mică deviere de la o distribuție de 2(1) la o adâncime de acoperire de 2 sau 5%.
de asemenea, am generat curbe ale caracteristicilor de funcționare ale receptorului (ROC) pentru fiecare dintre diferitele teste de asociere. Aceste curbe arată puterea testului la diferite rate fals pozitive. Deoarece distribuțiile unora dintre statisticile de testare nu urmează distribuția de la 7,2(1) în ipoteza nulă, pentru a face o comparație corectă, am obținut valoarea critică pentru fiecare rată fals pozitivă pe baza distribuției empirice nule. Puterea este calculată ca fracția de loci simulați ai bolii care au o statistică care depășește valoarea critică. În general, constatăm că LRT funcționează mai bine decât testul G bazat pe oricare dintre metodele de apelare a genotipului (Figura 5). De exemplu, la o rată fals pozitivă de 5% și cu o adâncime de secvențiere de 5 centi, puterea de a detecta un locus de boală cu un MAF de 1% și un risc relativ (RR) de 2 este de 51% cu LRT, dar puterea scade la 33% folosind metoda de apelare fără filtrare și la 34% folosind metoda de apelare cu filtrare. În special, la adâncime mică, testul G aplicat genotipurilor numite cu filtrare are performanțe foarte slabe (cea mai mare coloană din stânga din Figura 5). Dacă comparăm puterea LRT cu testul de tendință Armitage folosind numite genotipuri, constatăm că LRT are, de asemenea, o putere mai mare decât testul de tendință Armitage (fișier suplimentar 3). Acest lucru sugerează că, dacă se dorește utilizarea genotipurilor numite, filtrarea acestora pe baza încrederii apelurilor poate duce la pierderea puterii.
aplicare la date reale
am analizat 200 de exomi din grupul de control pentru un studiu de asociere a bolilor care au fost secvențiate folosind tehnologia Illumina la o adâncime per-individ de 8 unkt . Am folosit probabilitatea genotipului generată de programul” SOAPsnp ” pentru inferența noastră. Pentru mai multe detalii, consultați metode.
În primul rând, am explorat acuratețea estimărilor MAF din datele de secvențiere de generație următoare pentru 50 SNP-uri, comparându-le cu MAF-urile estimate din datele genotipului Sequenom. Atât estimările folosind metoda ML, cât și metoda de apelare a genotipului fără filtrare sunt puternic corelate cu estimările făcute din datele genotipului secvențial (adică o mică diferență standardizată între cele două estimări din Figura 6). Cu toate acestea, estimările bazate pe apelarea genotipului cu filtrare arată o corespondență slabă cu frecvențele estimate din datele genotipului secvențial, mai ales atunci când adâncimea de secvențiere este scăzută. Interesant este că există un SNP în care MAF estimat din datele de resecvențare este foarte diferit de estimarea obținută din datele genotipului Sequenom, chiar dacă adâncimea de secvențiere este foarte mare (14%). Mai exact, MAF estimat din datele genotipului Sequenom este de 22,5%, dar este de 17,2% atunci când este estimat folosind abordarea ML. Examinarea individuală arată că la mulți indivizi, genotipul foarte susținut pe baza datelor de secvențiere diferă de genotipurile secvențiale. Având în vedere că acest SNP este acoperit de multe lecturi la acești indivizi și că bazele de citire observate au scoruri de calitate ridicate (>Q20), este probabil ca diferența să se datoreze erorilor de genotipare secvențială. Rețineți că există câteva SNP-uri în care MAF-urile estimate din abordarea de apelare a genotipului fără filtrare par să corespundă mai bine MAF-urilor estimate din genotiparea secvențială decât estimările din abordarea ML. De exemplu, la un SNP MAF estimat este de 25,7% din datele genotipului secvențial, 25.9% din metoda de apelare a genotipului fără filtrare și 27,2% din metoda ML. Cu toate acestea, inspecția individuală relevă că există câțiva indivizi pentru care genotipul numit din datele de secvențiere diferă de genotipul secvențial. În aceste cazuri, erorile din genotipurile numite au fost anulate, dând aspectul unei corespondențe mai bune cu datele genotipului secvențial. Prin urmare, pentru aceste SNP-uri, este greu de spus care metodă funcționează cel mai bine.
am examinat apoi distribuția MAF calculată folosind mai multe abordări într-o gamă de adâncimi de secvențiere din datele noastre de secvențiere exom de generație următoare (Figura 7). Am eliminat SNP-urile cu MAF estimat <2%, deoarece este dificil să distingem aceste SNP-uri cu frecvență foarte joasă de erorile de secvențiere din acest set de date. Am eliminat în continuare site-urile în care a existat o diferență semnificativă (valoarea p mai mică de 10-5 folosind un rank-sum-test ) în Scorul de calitate al bazelor citite între alelele minore și majore. Este posibil ca aceste site-uri să fie SNP-uri artificiale care pot apărea din cauza cartografierii incorecte sau a prejudecăților necunoscute introduse în timpul procedurii experimentale. Apoi am clasificat fiecare site în coșuri pe baza adâncimii de acoperire. Numărul de SNP-uri din fiecare coș este prezentat în tabelul 1. În cazul în care adâncimea medie este mai mică de 9%, distribuțiile MAF estimate pe baza metodelor de apelare a genotipului sunt foarte diferite de cele bazate pe metoda ML. Mai exact, abordările de apelare a genotipului dau naștere unui exces mare de SNP-uri cu frecvență joasă (MAF între 2% și 4%). Acest model reflectă ceea ce s-a văzut în studiile noastre de simulare (Figura 3). De asemenea, pentru metodele de apelare a genotipului, distribuția frecvenței alelelor se schimbă dramatic pe măsură ce adâncimea de secvențiere se schimbă. Prin urmare, așa cum s-a discutat anterior, atunci când adâncimea nu este foarte mare, metodele de apelare a genotipurilor sunt susceptibile să includă o mulțime de SNP-uri false care sunt erori de secvențiere. Aceste erori apar ca un exces de SNP-uri de joasă frecvență în distribuția frecvenței. Distribuția bazată pe metoda ML este mai stabilă pe adâncimi, dar există încă un exces de SNP-uri cu frecvență de alelă scăzută cu adâncime mai mică de 9 centimetrii în comparație cu proporția SNP-urilor cu frecvență joasă la adâncimi mai mari.
În cele din urmă, am folosit aceste date exome-resecquencing pentru a simula un studiu de asociere caz-control. Pentru a examina distribuția statisticilor testului de asociere sub ipoteza nulă, am repartizat aleatoriu 100 de indivizi într-un grup de caz, iar ceilalți 100 în grupul de control. Pentru toate SNP-urile de pe cromozomul 2 cu estimări MAF > 2% (pe baza metodei ML de alele minore necunoscute), am testat diferențele de frecvență ale alelelor între cazuri și controale prin calcularea statisticii g folosind genotipuri numite atât cu filtrare, cât și fără filtrare, precum și statistica LRT. Figura 8 prezintă comploturile QQ care compară distribuțiile statisticilor de testare cu distribuția standard a articolului 2(1). După cum s-a văzut în studiile de simulare, distribuția nulă a g-statisticii calculată la apelarea genotipurilor fără filtrare se îndepărtează în mod substanțial de distribuția de la cifra de afaceri 2(1). Cu toate acestea, distribuția nulă a statisticii LRT urmează îndeaproape distribuția de la articolul 2 alineatul(1) din Regulamentul (CE) nr. Factorul de inflație este de 1,01, ceea ce înseamnă că statistica LRT funcționează bine atunci când este aplicată datelor reale.