estimering af allelfrekvens og associeringskortlægning ved hjælp af næste generations sekventeringsdata

den mindre allel er den mindre hyppige allel i befolkningen på et variabelt sted. Vi beskriver først to hovedmetoder til at estimere den mindre allelfrekvens (MAF) på et bestemt sted i genomet. Den første tilgang involverer at udlede individuelle genotyper og behandle de udledte genotyper som værende helt nøjagtige, når man estimerer MAF. Vi undersøger derefter udførelsen af en sandsynlighedsramme, der direkte tager usikkerheden ved tildeling af genotyper i betragtning. Gennem hele vores arbejde, vi antager, at alle adskilte steder er bialleliske.

estimering af MAF fra kaldte genotyper

en måde at estimere MAF fra næste generations sekventeringsdata er først at kalde en genotype for hver enkelt ved hjælp af sekventeringsdata og derefter bruge disse genotyper, som om de er de sande. Dette var den tilgang, der traditionelt blev brugt til genotypedata og Sanger-sekventeringsdata. Det er ikke klart, hvor godt det vil fungere, når det anvendes på Næste generations sekventeringsdata.

en maksimal sandsynlighedstilgang kan bruges til at udlede genotypen for hvert individ fra næste generations sekventeringsdata. På hvert sted j, for hvert individ i, er sandsynligheden for hver af de tre mulige genotyper (forudsat at vi kender den mindre allel) givet som:

(1)

hvor D I,J er de observerede sekventeringsdata i individuel I på stedet j, g i , j – {0, 1, 2} er antallet af mindre alleler indeholdt i genotypen af hvert individ, og og kontrol for sekventeringsfejl og læse basiskvaliteter. De observerede sekventeringsdata for hver enkelt person kan betragtes som justeringen af læsninger på site j under hensyntagen til læsekvalitetsscore. Dette er repræsenteret som genotype sandsynlighed og findes i genotype Sandsynlighed fil (GLF), som er produceret i mange programmer, der analyserer næste generations sekventeringsdata, f .eks.

for at tildele en genotype til et bestemt individ kan sandsynligheden for hver af de tre mulige genotyper beregnes for individet. Genotypen med den højeste sandsynlighed kan derefter tildeles. Imidlertid, forskere foretrækker ofte et strengere kaldekriterium og vil ikke tildele en genotype til et individ, medmindre den mest sandsynlige genotype er væsentligt mere sandsynlig end den næst mest sandsynlige. Her sorteres de tre mulige genotyper efter deres sandsynlighed: , hvor g(k)svarer til genotypen med k th største sandsynlighed. Med en given tærskel f kan man kalde genotypen g (1), hvis . Ellers kaldes en genotype ikke, og individets genotype betragtes som manglende. En fælles tærskelværdi på f er 1, hvilket indikerer, at den mest sandsynlige genotype er mindst 10 gange mere sandsynlig end den næst mest sandsynlige. Bemærk, at denne type filtrering kan resultere i højere tillid for den “kaldte” genotype, men det resulterer også i flere manglende data.

maksimal sandsynlighedsestimator for allelfrekvens

i stedet for at estimere MAF fra de kaldte genotyper, a maksimal sandsynlighed (ML) metode introduceret af Kim et al. (Se også Lynch for en lignende tilgang) estimerer direkte MAF ‘ er og tager hensyn til genotypeusikkerhed. Specifikt, givet en mindre allel, sandsynligheden for at observere sekvensdataene ved hvert individ i opnås ved at opsummere sandsynlighederne svarende til alle tre mulige genotyper.

Antag, at de tre genotype sandsynligheder defineret i ligning 1 er tilgængelige. Brug den samme notation som ovenfor, lad D j og p j være de observerede sekventeringsdata på henholdsvis sted j og den tilsvarende MAF. Genotype sandsynligheden givet, at mindre allelfrekvens kan beregnes ved at antage Hardy-Veinberg ligevægt. Derefter antages uafhængighed blandt individer, sandsynligheden for MAF på dette sted er et produkt af alle sandsynligheder beregnet på tværs af alle n individer:

(2)

ML estimatet af p J kan beregnes enten ved direkte at maksimere sandsynligheden for et begrænset parameterrum ved hjælp af Broyden-Fletcher-Goldfarb-Shanno (bfgs) metode eller ved hjælp af forventning-maksimering (em) algoritme . Når man bruger EM-algoritmen, beregnes den bageste forventning om en genotype for hver enkelt person, og gennemsnittet af disse posteriors opdateres gentagne gange. Vores implementering af BFGS var hurtigere end EM-algoritmen. For eksempel for at opnå estimater fra 100.000 steder tog BFGS ~16 sekunder, men EM tog ~100 sekunder. Forskellen i hastighed kan dog være implementeringsspecifik. I vores tilfælde stoppede vi for begge metoder med at opdatere parametre, når stigningen i sandsynligheden var mindre end 0, 001.

maksimal sandsynlighedsestimator med usikker mindre allel

i praksis kan ofte det næst mest almindelige nukleotid på tværs af individer bruges som den mindre allel. MAF < 1%) er det imidlertid svært at bestemme, hvilken allel der er den mindre allel, da alle fire nukleotider kan forekomme i nogle læsninger på grund af sekventeringsfejl. For at håndtere denne situation beskriver vi nu en sandsynlighedsramme, der tager usikkerheden i bestemmelsen af den mindre allel i betragtning.

Antag at for site j kender vi den store allel M. Bemærk, at det ikke er vigtigt at beslutte, hvilken af to almindelige alleler der sandsynligvis er den største, da vi for det meste beskæftiger os med at estimere frekvenserne ved sjældne SNP ‘ er. 50%) er sondringen mellem større og mindre allel mindre vigtig. Tildele de andre tre ikke-store nukleotider m1, m2 og m3. Sandsynligheden indført i ligning 2 antager en fast større allel M og fast mindre allel m. derfor, for at give mulighed for usikkerhed i betegnelsen af den mindre allel, sandsynlighedsfunktionen kan ændres som:

(3)

yderligere, forudsat at nogen af de tre mulige mindre alleler er lige sandsynlige, opnår vi:

(4)

hvor . Da kan være meget lille med store datasæt (f.eks. Bestil de tre betingede log-sandsynligheder som til (l (1), l(2), l(3)), Hvor l(1) er den største. Derefter

G-test ved hjælp af kaldet genotyper til associeringskortlægning

I associeringsundersøgelser siges SNP ‘ er, der viser signifikante forskelle i allelfrekvens mellem tilfælde og kontroller, at være forbundet med fænotypen af interesse. Tilknytningskortlægning kan udføres ved hjælp af data fra næste generations sekventeringsundersøgelser. Vi diskuterer først tilgange, der kræver at kalde individuelle genotyper og derefter udføre en test for tilknytning ved hjælp af de kaldte genotyper. I denne tilgang kaldes en genotype først for hver enkelt person. Genotyperne kan filtreres eller ufiltreres. Forudsat uafhængighed på tværs af enkeltpersoner og hvi, – en 2 Lot 2 beredskabstabel kan bygges ved at tælle antallet af større og mindre alleler i både sager og kontroller. Dette fører til den velkendte sandsynlighedsforholdstest for uafhængighed, G-testen:

(5)

hvor O k,h er frekvensen observeret i en celle, og E k,h er den frekvens, der forventes under nulhypotesen, hvor allelfrekvensen er den samme mellem tilfælde og kontroller. Den velkendte Pearsons chi-firkantede test svarer asymptotisk til G-testen. Hvis tabellen genereres ud fra ægte genotyper, følger G-statistikken asymptotisk en chi-firkantet fordeling med 1 grad af frihed (lyr2(1)). Imidlertid, i vores undersøgelser, vi konstruerer G-statistikken ved hjælp af “kaldte” genotyper, således at vi muligvis ikke holder på grund af over – og underopkald af heterosygoter. Desuden introducerer konstruktion af teststatistikken ved at tælle “kaldte” genotyper i stedet for “observerede” genotyper sandsynligvis ekstra variation. Derfor er den statistiske teori muligvis ikke længere gyldig. Bemærk, at når en genotype ikke kaldes for et bestemt individ, betragtes dataene som manglende og er ikke inkluderet i 2-tabellen 2.

Sandsynlighedsforholdstest, der tegner sig for usikkerhed i de observerede genotyper til associeringskortlægning

i stedet for at kalde genotyper, sandsynlighedsrammen muliggør usikkerhed i genotyperne og testene på hvert sted j om allelfrekvensen er den samme mellem tilfælde og kontroller. Formelt beregner vi sandsynligheden for hypoteserne H o: p j ,1 = p j, 2(= p j, 0) og H A : p j, 1 p j, 2 ,hvor p j ,1 og p j, 2 er MAF ‘ erne i henholdsvis tilfælde og kontrol.

Hvis man antager, at mindre (m) og større (m) alleler er kendt, kan sandsynligheden for den mindre allelfrekvens beregnes som beskrevet i ligning 2, og sandsynlighedsforholdet teststatistik beregnes som:

(6)

hvor og er de observerede data for henholdsvis tilfælde og kontroller og og er Mles for MAF ‘ erne i henholdsvis sager og kontroller.

Hvis den mindre allel er ukendt, beregnes sandsynligheden under nulhypotesen som i ligning 3, og LRT-statistikken ændres som:

(7)

hvor D j er de observerede data for begge tilfælde og kontroller, og er allelfrekvensen under nulhypotesen. Andre notationer er de samme som i ligning 6.

estimering af MAF i simulerede data

vi sammenligner estimaterne af allelfrekvens på simulerede data ved hjælp af ægte genotyper (True), kaldet genotyper uden nogen filtrering (Call NF), kaldet genotyper med filtrering (f = 1; Call F) og den maksimale sandsynlighedsmetode (ML). For sjældne SNP ‘ er er den mindre alleltype ofte ikke synlig. Når man kalder genotyper, antages det næst mest almindelige nukleotid at være den mindre allel. ML-metoden inkorporerer direkte usikkerhed ved bestemmelse af den mindre allel, og medmindre andet er angivet, vises resultater ved hjælp af den ukendte mindre allelmetode (ligning 3). Bemærk, at den ukendte mindre allel ML-metode fungerer på samme måde som den kendte mindre allel ML-metode, men den førstnævnte bedre for meget sjældne SNP ‘ er (yderligere fil 1).

vi vurderede først, hvor godt de forskellige tilgange var i stand til at estimere MAF i 200 individer på tværs af en række sekventeringsdybder for 1.000 SNP ‘ er med en ægte MAF på 5%. Figur 1 viser boksplots af fordelingen af estimerede MAF ‘ er ved hjælp af de fire forskellige tilgange. Som forventet, for højere dækningsdata, såsom en individuel dybde på 12 liter, fungerer alle metoderne såvel som når genotyperne er kendt med sikkerhed (sandt). Men når dybden falder, bliver estimaterne af MAF opnået ved først at kalde genotyper partisk. For eksempel er median MAF estimeret ved hjælp af Call F-metoden 5,3% ved 6 liter dækning og er 12,5% ved 2 liter. Årsagen til den opadgående bias er, at det bliver sværere at kalde heterosygoter, da ægte heterosygoter ofte ligner sekventeringsfejl. Derfor har flere heterosygoter end mindre homosygoter tendens til at have manglende genotyper. Imidlertid er den samlede bias i MAF-estimater fra kaldte genotyper ikke altid i en retning (data ikke vist). Interessant nok synes bias at være værre for Call F-metoden end Call NF-metoden. Dette mønster kan virke kontraintuitivt, da filtrering af genotypeopkald synes at mindske sandsynligheden for at kalde en sekventeringsfejl en heterosygote. Opkald f-metoden resulterer imidlertid også i en større mængde manglende data, da mange homosygoter til den store allel ikke kaldes på grund af sekventeringsfejl. I dette tilfælde synes det at være den bedre strategi at kalde genotyper uden filtrering end at filtrere genotyper, når man prøver at estimere MAF.

Figur 1
figur1

estimater af allelfrekvens på steder med en ægte MAF på 5% for forskellige dækningsdybder. På hver dybde blev 1.000 steder simuleret ved hjælp af 200 individer, og på hvert sted beregnes et skøn over allelfrekvens ved hjælp af: (1) ægte genotyper (Sand); (2) kaldet genotyper uden filtrering (opkald NF); (3) kaldet genotyper med filtrering (opkald F); og (4) den maksimale sandsynlighedsmetode (ML). For flere detaljer om estimeringsmetoderne, se metoder.

resultaterne er dramatisk forskellige for den nye ML-metode. Denne metode giver upartiske estimater af MAF (median på ~4,9%) på tværs af en række dybder. Selv ved 2. kr. viser estimaterne kun en lidt større varians end dem, der er baseret på de sande genotyper.

Vi sammenlignede også den estimerede gennemsnitlige kvadratiske fejl (MSE; forventning () af de forskellige estimater af MAF på tværs af en række sekventeringsdybder (figur 2). ML-metoden har en lavere MSE end opkaldsmetoderne med 50 eller 200 individer. Især er MSE beregnet baseret på Call F-metoden meget højere end dem fra de andre metoder, især når dybden falder. MSE af estimaterne af MAF baseret på de sande genotyper afspejler den nedre grænse for MSE og er ikke konstant på tværs af dybder på grund af prøveudtagningsvarians og en endelig prøvestørrelse. Ved hjælp af 50 individer nærmer MSE sig 0,0005 med stigende dybde, og når man bruger en prøvestørrelse på 200 individer, nærmer den sig 0,0013 med stigende dybde.

figur 2
figur2

gennemsnitlig fejl (MSE; forventet) af fire forskellige typer af allelfrekvensestimatorer til forskellige prøvestørrelser (venstre og højre panel) og dækningsdybder (h-akse). På hver dybde blev MSE beregnet ud fra allelfrekvensestimaterne foretaget ved hjælp af fire forskellige metoder: True, Call NF, Call F og ML (for detaljer om metoderne, se billedteksten til figur 1).

samlet set udfører den nye ML-metode genotypeopkaldsmetoder.

estimering af en fordeling af MAF ‘er fra simulerede data

Vi undersøger derefter, hvordan de forskellige estimeringsmetoder udføres ved estimering af andelen af SNP’ er ved forskellige frekvenser i befolkningen (svarende til stedets frekvensspektrum, men baseret på populationsallelfrekvens i stedet for prøvefrekvens). Her simulerede vi 20.000 SNP ‘er, hvor fordelingen af de sande MAF’ er fulgte den stationære standardfordeling for en effektiv befolkningsstørrelse på 10.000 (se metoder). Bemærk, at det i praksis imidlertid er meget vanskeligt at skelne en meget sjælden SNP fra en sekventeringsfejl. Derfor, til sammenligning formål med reelle data, vi kasseret SNP ‘ er med anslået MAF mindre end 2%. Figur 3 viser andelen af SNP ‘er, der falder i hver anden frekvensbakke efter at have ekskluderet disse SNP’ er med estimeret MAF<2%.

figur 3
figur3

fordeling af Allelfrekvenser af SNP ‘ er simuleret under forudsætning af standard stationær fordeling af allelfrekvenser. På hver dybde (hvert panel) blev 20.000 SNP ‘ er simuleret, og for hver SNP blev estimater af MAF opnået ved hjælp af fire forskellige metoder (se billedteksten til figur 1). Derefter bruges kun steder med estimerede allelfrekvenser > 2% for hver metode (hver farve) til at generere hvert histogram (h-akse).

som forventet giver alle metoder estimerede MAF-fordelinger, der ligner den forventede fordeling baseret på de sande genotyper (figur 3). Med en lavere dækningsdybde, såsom mindre end 4 liter pr.individ, afviger distributionerne af MAF ‘ er opnået ved genotypeopkaldsmetoder markant fra den forventede MAF-fordeling baseret på ægte genotyper (figur 3). Disse metoder overvurderer især andelen af lavfrekvente SNP ‘ er. For eksempel er den forventede andel af SNP ‘ er i den anden bin (estimeret MAF mellem 2-4%) 18%. Den tilsvarende andel baseret på Call NF-metoden i en dybde på 4 liter er 26%, hvilket er 1,4 gange højere end forventet. Overestimering af andelen af lavfrekvente SNP ‘ er opstår på grund af forvirring af sekventeringsfejl med ægte heterosygoter, hvilket resulterer i overkalde heterosygøse genotyper. Størrelsen af denne inflation adskiller sig på tværs af forskellige filtreringsafbrydelser, men en større afskæring øger eller mindsker ikke nødvendigvis inflationen.

billedet er helt anderledes for ML-metoden. Den estimerede MAF-fordeling opnået ved den nye ML-metode følger nøje den sande fordeling, selv med lave dækningsdybder. Her er der næsten intet overskud af lavfrekvente SNP ‘ er. På en dybde på 4 liter er andelen af SNP ‘ er i histogrammets anden bin 18,4%, hvilket er meget tæt på den forventede andel (18%). Dermed, mere pålidelige estimater af frekvensspektret kan laves ud fra data med lav dækning ved hjælp af vores sandsynlighedstilgang end ved at bruge genotype-kaldende tilgange.

Associeringskortlægning i simulerede data

vi sammenligner udførelsen af metoder, der behandler udledte genotyper som ægte genotyper i associeringstest (ved hjælp af en G-test) til vores sandsynlighedsforholdstest (LRT), der tegner sig for usikkerhed i genotyperne. Vi undersøger fordelingen af teststatistikken under nulhypotesen om ingen allelfrekvensforskel mellem tilfælde og kontroller. Vi sammenligner også kraften i de forskellige tilgange.

med rimeligt store prøvestørrelser antyder standard asymptotisk teori, at både G-statistik og LRT-statistik under nulhypotesen følger en chi-firkantet fordeling med en grad af frihed (LR2(1)). Derfor har vi sammenlignet nulfordelingen af G-statistikken beregnet ud fra kaldemetoder såvel som LRT-statistikken med fordelingen af LR2(1) ved hjælp af KK-plots (figur 4). Vi simulerede 5.000 SNP ‘ er på tværs af en række sekventeringsdybder i 500 tilfælde og kontroller, hvor MAF, der blev brugt til at simulere genotyper, var 5% i begge tilfælde og kontroller. Fordelingen af G-statistikken beregnet ved hjælp af de sande genotyper viser en meget god korrespondance med en fordeling af LR2(1). Fordelingen af G-statistikken beregnet baseret på de kaldte genotyper afviger imidlertid i det væsentlige fra en RR2(1) fordeling. At kalde genotyper og derefter behandle disse genotyper som værende nøjagtige producerer et stort overskud af falsk-positive signaler, hvis p-værdierne beregnes ved hjælp af en fordeling af RR2(1). For eksempel havde 11% af SNP ‘ erne i en dybde på 2 liter en p-værdi mindre end 5% sammenlignet med de forventede 5%. Effekten er forårsaget af en stigning i variansen på grund af overcalling af homosygoter som heterosygoter i den alleliske test, der anvendes her til påvisning af tilknytning. Genotypiske tests som Armitage trend test, som er robuste over for afvigelser fra Hardy-Veinberg ligevægt, viser ikke en lignende stigning i den falske positive rate (yderligere fil 2). I overensstemmelse med denne observation resulterer filtrering af de kaldte genotyper i et fald i fraktionen af signifikante tests, når man bruger G-testen, selvom filtrering ikke løser problemet fuldstændigt. På den anden side viser LRT-statistikken kun en meget lille afvigelse fra en liter 2(1) fordeling for enten 2 liter eller 5 liter dækningsdybder.

figur 4
figur4

KK-plots, der sammenligner nulfordelingen af teststatistikken af interesse med en LR2(1) fordeling. Hver kolonne svarer til en anden teststatistik: (1) G-statistik beregnet ved hjælp af ægte genotyper (Sand); (2)G-statistik beregnet ved hjælp af kaldte genotyper uden filtrering (opkald NF); (3) G-statistik beregnet ved hjælp af kaldte genotyper med filtrering (opkald F); og (4) sandsynlighedsforholdet teststatistik med ukendt mindre allel (LRT). Under antagelse af 500 tilfælde og 500 kontroller blev der under nulhypotesen simuleret et sæt på 5.000 steder med en MAF på 5% med en sekventeringsdybde på 2 liter (øvre paneler) og 5 liter (nedre paneler). “Inflationsfaktoren” vises i øverste venstre hjørne af hver figur.

Vi genererede også ROC-kurver (receiver operative characteristic) for hver af de forskellige associeringstest. Disse kurver viser testens styrke ved forskellige falsk-positive hastigheder. Da distributionerne af nogle af teststatistikkerne ikke følger fordelingen af lus2 (1) under nulhypotesen, for at foretage en rimelig sammenligning, opnåede vi den kritiske værdi for hver falsk positiv sats baseret på den empiriske nulfordeling. Effekten beregnes som den brøkdel af simulerede sygdomslok, der har en statistik, der overstiger den kritiske værdi. Samlet set finder vi, at LRT fungerer bedre end G-testen baseret på begge genotypeopkaldsmetoder (figur 5). For eksempel er kraften til at detektere et sygdomslokus med en MAF på 1% og en relativ risiko (RR) på 2 51% med LRT, men effekten falder til 33% ved hjælp af opkaldsmetoden uden filtrering og til 34% ved hjælp af opkaldsmetoden med filtrering. Især ved lav dybde fungerer G-testen anvendt på kaldte genotyper med filtrering meget dårligt (venstre mest kolonne i figur 5). Hvis vi sammenligner effekten af LRT med Armitage trend test ved hjælp af kaldet genotyper, finder vi, at LRT også har højere effekt end Armitage trend test (yderligere fil 3). Dette antyder, at hvis man ønsker at bruge kaldte genotyper, kan filtrering af dem baseret på opkaldstillid resultere i et tab af magt.

figur 5
figur5

modtager driftskarakteristika (ROC) kurver af fire test af association. For definitionen af de fire statistikker, se billedteksten til figur 4. Under antagelse af 500 tilfælde og 500 kontroller blev et sæt på 20.000 steder simuleret under null og under alternativet ved individuelle sekventeringsdybder på 2 liter, 5 liter og 10 liter (tre kolonner). Ved hver falsk positiv hastighed blev den tilsvarende kritiske værdi beregnet ved hjælp af den empiriske nulfordeling. Den sande positive hastighed (effekt; y-akse) blev opnået ved at beregne fraktionen af årsagssteder med teststatistikker, der overstiger den kritiske værdi.

anvendelse til reelle data

vi analyserede 200 eksomer fra kontroller til en sygdomsforeningsundersøgelse, der er blevet sekventeret ved hjælp af Illumina-teknologi på en per-individuel dybde på 8 liter . Vi brugte genotype sandsynligheder genereret af” SOAPsnp ” – programmet til vores slutning. For flere detaljer, se metoder.

først undersøgte vi nøjagtigheden af estimaterne af MAF fra næste generations sekventeringsdata for 50 SNP ‘er ved at sammenligne dem med de estimerede MAF’ er fra Sekvensgenotypedata. Både estimaterne ved hjælp af ML-metoden og genotypeopkaldsmetoden uden filtrering er stærkt korreleret med estimaterne foretaget ud fra Sekvensgenotypedataene (dvs.en lille standardiseret forskel mellem de to estimater i figur 6). Estimater baseret på genotypeopkald med filtrering viser imidlertid dårlig korrespondance med frekvenserne estimeret ud fra Sekvensgenotypedataene, især når sekventeringsdybden er lav. Interessant nok er der en SNP, hvor den estimerede MAF fra resekventeringsdataene er meget forskellig fra estimatet opnået fra Sekvensgenotypedataene, selvom sekventeringsdybden er meget høj (14 liter). Specifikt er den estimerede MAF fra Sekvensgenotypedataene 22,5%, men er 17,2%, når den estimeres ved hjælp af ML-metoden. Individuel undersøgelse viser, at hos mange individer adskiller den stærkt understøttede genotype baseret på sekventeringsdataene sig fra Sekvensgenotyperne. I betragtning af at denne SNP er dækket af mange læsninger hos disse individer, og at de observerede læsebaser har høje kvalitetsresultater (>20.kvartal), er det sandsynligt, at forskellen skyldes Sekvensgenotypefejl. Bemærk, at der er et par SNP ‘er, hvor de estimerede MAF’ er fra genotypeopkaldsmetoden uden filtrering synes bedre at svare til de MAF ‘ er, der er estimeret ud fra Sekvensgenotypebestemmelsen end estimaterne fra ML-tilgangen gør. For eksempel er den estimerede MAF ved en SNP 25,7% fra Sekvensgenotypedataene, 25.9% fra genotypeopkaldsmetoden uden filtrering og 27,2% fra ML-metoden. Imidlertid, individuel inspektion afslører, at der er et par individer, for hvilke den kaldte genotype fra sekventeringsdataene adskiller sig fra Sekvensgenotypen. I disse tilfælde annulleres fejlene i de kaldte genotyper, hvilket giver udseendet af bedre korrespondance med Sekvensgenotypedataene. Derfor er det for disse SNP ‘ er svært at se, hvilken metode der fungerer bedst.

figur 6
figur6

estimater af allelfrekvens beregnet fra 200 individer ved hjælp af næste generations sekventeringsdata vs. Sekvensgenotype data. På hvert sted blev kun personer, der har både Sekvensgenotypedata og sekventeringsdata, brugt til estimering af allelfrekvens. For sekventeringsdataene blev estimater af MAF opnået ved hjælp af tre forskellige metoder (Call NF; Call F; og ML). Den standardiserede forskel for hvert estimat blev beregnet som , hvor og er de estimerede MAF ‘ er fra henholdsvis sekventeringsdata og Sekvensgenotypedata, og n er antallet af individer, der anvendes til estimeringen. Hvert websted er klassificeret i en af de fire placeringer baseret på de gennemsnitlige individuelle dybde af dækning (farver): mindre end 4×, der er højere end 4×, men mindre end 8×, højere end 8×, men mindre end 16× og højere end 16×.

Vi undersøgte derefter fordelingen af MAF ‘ er beregnet ved hjælp af flere tilgange på tværs af en række sekventeringsdybder fra vores næste generations eksomsekventeringsdata (Figur 7). Vi kasserede SNP ‘ er med estimeret MAF <2%, da det er vanskeligt at skelne disse meget lavfrekvente SNP ‘ er fra sekventeringsfejl i dette datasæt. Vi fjernede yderligere steder, hvor der var en signifikant forskel (p-værdi mindre end 10-5 ved hjælp af en rang-sum-test ) i kvalitetsresultatet for læsebaser mellem de mindre og større alleler. Disse steder er sandsynligvis kunstige SNP ‘ er, der kan opstå på grund af forkert kortlægning eller ukendte forstyrrelser introduceret under den eksperimentelle procedure. Derefter klassificerede vi hvert sted i skraldespande baseret på dækningsdybden. Antallet af SNP ‘ er i hver skraldespand er vist i tabel 1. Når den gennemsnitlige dybde er mindre end 9 liter, fordelingen af estimerede MAF ‘ er baseret på genotypeopkaldsmetoder er meget forskellig fra den, der er baseret på ML-metoden. Specifikt giver genotypeopkaldsmetoderne anledning til et stort overskud af lavfrekvente SNP ‘ er (MAF mellem 2% og 4%). Dette mønster afspejler, hvad der blev set i vores simuleringsundersøgelser (figur 3). Også for genotypeopkaldsmetoderne ændres allelfrekvensfordelingen dramatisk, når sekventeringsdybden ændres. Derfor, som diskuteret tidligere, når dybden ikke er meget høj, vil genotypeopkaldsmetoderne sandsynligvis omfatte mange falske SNP ‘ er, der er sekventeringsfejl. Disse fejl vises som et overskud af lavfrekvente SNP ‘ er i frekvensfordelingen. Fordelingen baseret på ML-metoden er mere stabil på tværs af dybder, men der er stadig et overskud af SNP ‘er med lav allelfrekvens med dybde mindre end 9 liter sammenlignet med andelen af lavfrekvente SNP’ er ved større dybder.

Figur 7
figur7

fordeling af den mindre allelfrekvens estimeret ud fra eksomerne af 200 sekventerede individer. For hvert sted, den mindre allelfrekvens blev estimeret ved hjælp af fire forskellige metoder: (1) ML-metoden med ukendt mindre allel, (2) ML-metoden med en kendt eller fast mindre allel, (3) kalder genotyper uden filtrering (kalder NF) og (4) kalder genotyper med filtrering (kalder F). Hvert sted er klassificeret i skraldespande baseret på dækningsdybden. Desuden overvejes ikke steder med estimeret MAF mindre end 2% i hvert histogram. For antallet af SNP ‘ er, der blev brugt til denne analyse, se tabel 1.

tabel 1 Antal SNP ‘ er med estimeret MAF større end 2% ved hjælp af en bestemt metode (række) inden for hver bin (kolonne) defineret af gennemsnitlig sekvensdybde på tværs af individer.

endelig brugte vi disse eksom-resekventeringsdata til at simulere en case-control association-undersøgelse. For at undersøge fordelingen af associeringsteststatistikken under nulhypotesen tildelte vi tilfældigt 100 individer til en sagsgruppe og de andre 100 til kontrolgruppen. For alle SNP ‘ er på kromosom 2 med MAF-estimater > 2% (baseret på den ukendte mindre allel ML-metode) testede vi for allelfrekvensforskelle mellem tilfælde og kontroller ved at beregne G-statistikken ved hjælp af kaldte genotyper både med og uden filtrering såvel som LRT-statistikken. Figur 8 viser KK-plottene, der sammenligner distributionerne af teststatistikken med standardkr2(1) – distributionen. Som det ses i simuleringsundersøgelser, nulfordelingen af G-statistikken beregnet, når man kalder genotyper uden filtrering, afviger i det væsentlige fra fordelingen af RR2(1). Nulfordelingen af LRT-statistikken følger imidlertid nøje fordelingen af LR2 (1). Inflationsfaktoren er 1,01, hvilket antyder, at LRT-statistik fungerer godt, når den anvendes på reelle data.

figur 8
figur8

KK-plots, der sammenligner associeringsteststatistikken for allelfrekvensforskelle mellem 100 tilfælde og 100 kontroller til en fordeling af pri2(1). Fænotyper blev tilfældigt tildelt indivdiduals i eksom-resekventeringsdatasættet, således at der er 100 tilfælde og 100 kontroller. For hvert sted, tre statistikker blev beregnet: det G-statistik ved hjælp af kaldet genotyper uden filtrering (Ring NF), G-statisk ved hjælp af kaldet genotyper med filtrering (opkald F) og LRT statistik. For at minimere inkludering af falske SNP ‘ er kasseres steder med ML MAF-estimater mindre end 2%. Til visningsformål vises resultater fra steder på kromosom 2. Bemærk, at inflationsfaktoren vises i øverste venstre hjørne af hvert KK-plot.

Related Posts

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *