den mindre allel er den mindre hyppige allel i befolkningen på et variabelt sted. Vi beskriver først to hovedmetoder til at estimere den mindre allelfrekvens (MAF) på et bestemt sted i genomet. Den første tilgang involverer at udlede individuelle genotyper og behandle de udledte genotyper som værende helt nøjagtige, når man estimerer MAF. Vi undersøger derefter udførelsen af en sandsynlighedsramme, der direkte tager usikkerheden ved tildeling af genotyper i betragtning. Gennem hele vores arbejde, vi antager, at alle adskilte steder er bialleliske.
- estimering af MAF fra kaldte genotyper
- maksimal sandsynlighedsestimator for allelfrekvens
- maksimal sandsynlighedsestimator med usikker mindre allel
- G-test ved hjælp af kaldet genotyper til associeringskortlægning
- Sandsynlighedsforholdstest, der tegner sig for usikkerhed i de observerede genotyper til associeringskortlægning
- estimering af MAF i simulerede data
- estimering af en fordeling af MAF ‘er fra simulerede data
- Associeringskortlægning i simulerede data
- anvendelse til reelle data
estimering af MAF fra kaldte genotyper
en måde at estimere MAF fra næste generations sekventeringsdata er først at kalde en genotype for hver enkelt ved hjælp af sekventeringsdata og derefter bruge disse genotyper, som om de er de sande. Dette var den tilgang, der traditionelt blev brugt til genotypedata og Sanger-sekventeringsdata. Det er ikke klart, hvor godt det vil fungere, når det anvendes på Næste generations sekventeringsdata.
en maksimal sandsynlighedstilgang kan bruges til at udlede genotypen for hvert individ fra næste generations sekventeringsdata. På hvert sted j, for hvert individ i, er sandsynligheden for hver af de tre mulige genotyper (forudsat at vi kender den mindre allel) givet som:
hvor D I,J er de observerede sekventeringsdata i individuel I på stedet j, g i , j – {0, 1, 2} er antallet af mindre alleler indeholdt i genotypen af hvert individ, og og kontrol for sekventeringsfejl og læse basiskvaliteter. De observerede sekventeringsdata for hver enkelt person kan betragtes som justeringen af læsninger på site j under hensyntagen til læsekvalitetsscore. Dette er repræsenteret som genotype sandsynlighed og findes i genotype Sandsynlighed fil (GLF), som er produceret i mange programmer, der analyserer næste generations sekventeringsdata, f .eks.
for at tildele en genotype til et bestemt individ kan sandsynligheden for hver af de tre mulige genotyper beregnes for individet. Genotypen med den højeste sandsynlighed kan derefter tildeles. Imidlertid, forskere foretrækker ofte et strengere kaldekriterium og vil ikke tildele en genotype til et individ, medmindre den mest sandsynlige genotype er væsentligt mere sandsynlig end den næst mest sandsynlige. Her sorteres de tre mulige genotyper efter deres sandsynlighed: , hvor g(k)svarer til genotypen med k th største sandsynlighed. Med en given tærskel f kan man kalde genotypen g (1), hvis . Ellers kaldes en genotype ikke, og individets genotype betragtes som manglende. En fælles tærskelværdi på f er 1, hvilket indikerer, at den mest sandsynlige genotype er mindst 10 gange mere sandsynlig end den næst mest sandsynlige. Bemærk, at denne type filtrering kan resultere i højere tillid for den “kaldte” genotype, men det resulterer også i flere manglende data.
maksimal sandsynlighedsestimator for allelfrekvens
i stedet for at estimere MAF fra de kaldte genotyper, a maksimal sandsynlighed (ML) metode introduceret af Kim et al. (Se også Lynch for en lignende tilgang) estimerer direkte MAF ‘ er og tager hensyn til genotypeusikkerhed. Specifikt, givet en mindre allel, sandsynligheden for at observere sekvensdataene ved hvert individ i opnås ved at opsummere sandsynlighederne svarende til alle tre mulige genotyper.
Antag, at de tre genotype sandsynligheder defineret i ligning 1 er tilgængelige. Brug den samme notation som ovenfor, lad D j og p j være de observerede sekventeringsdata på henholdsvis sted j og den tilsvarende MAF. Genotype sandsynligheden givet, at mindre allelfrekvens kan beregnes ved at antage Hardy-Veinberg ligevægt. Derefter antages uafhængighed blandt individer, sandsynligheden for MAF på dette sted er et produkt af alle sandsynligheder beregnet på tværs af alle n individer:
ML estimatet af p J kan beregnes enten ved direkte at maksimere sandsynligheden for et begrænset parameterrum ved hjælp af Broyden-Fletcher-Goldfarb-Shanno (bfgs) metode eller ved hjælp af forventning-maksimering (em) algoritme . Når man bruger EM-algoritmen, beregnes den bageste forventning om en genotype for hver enkelt person, og gennemsnittet af disse posteriors opdateres gentagne gange. Vores implementering af BFGS var hurtigere end EM-algoritmen. For eksempel for at opnå estimater fra 100.000 steder tog BFGS ~16 sekunder, men EM tog ~100 sekunder. Forskellen i hastighed kan dog være implementeringsspecifik. I vores tilfælde stoppede vi for begge metoder med at opdatere parametre, når stigningen i sandsynligheden var mindre end 0, 001.
maksimal sandsynlighedsestimator med usikker mindre allel
i praksis kan ofte det næst mest almindelige nukleotid på tværs af individer bruges som den mindre allel. MAF < 1%) er det imidlertid svært at bestemme, hvilken allel der er den mindre allel, da alle fire nukleotider kan forekomme i nogle læsninger på grund af sekventeringsfejl. For at håndtere denne situation beskriver vi nu en sandsynlighedsramme, der tager usikkerheden i bestemmelsen af den mindre allel i betragtning.
Antag at for site j kender vi den store allel M. Bemærk, at det ikke er vigtigt at beslutte, hvilken af to almindelige alleler der sandsynligvis er den største, da vi for det meste beskæftiger os med at estimere frekvenserne ved sjældne SNP ‘ er. 50%) er sondringen mellem større og mindre allel mindre vigtig. Tildele de andre tre ikke-store nukleotider m1, m2 og m3. Sandsynligheden indført i ligning 2 antager en fast større allel M og fast mindre allel m. derfor, for at give mulighed for usikkerhed i betegnelsen af den mindre allel, sandsynlighedsfunktionen kan ændres som:
yderligere, forudsat at nogen af de tre mulige mindre alleler er lige sandsynlige, opnår vi:
hvor . Da kan være meget lille med store datasæt (f.eks. Bestil de tre betingede log-sandsynligheder som til (l (1), l(2), l(3)), Hvor l(1) er den største. Derefter
G-test ved hjælp af kaldet genotyper til associeringskortlægning
I associeringsundersøgelser siges SNP ‘ er, der viser signifikante forskelle i allelfrekvens mellem tilfælde og kontroller, at være forbundet med fænotypen af interesse. Tilknytningskortlægning kan udføres ved hjælp af data fra næste generations sekventeringsundersøgelser. Vi diskuterer først tilgange, der kræver at kalde individuelle genotyper og derefter udføre en test for tilknytning ved hjælp af de kaldte genotyper. I denne tilgang kaldes en genotype først for hver enkelt person. Genotyperne kan filtreres eller ufiltreres. Forudsat uafhængighed på tværs af enkeltpersoner og hvi, – en 2 Lot 2 beredskabstabel kan bygges ved at tælle antallet af større og mindre alleler i både sager og kontroller. Dette fører til den velkendte sandsynlighedsforholdstest for uafhængighed, G-testen:
hvor O k,h er frekvensen observeret i en celle, og E k,h er den frekvens, der forventes under nulhypotesen, hvor allelfrekvensen er den samme mellem tilfælde og kontroller. Den velkendte Pearsons chi-firkantede test svarer asymptotisk til G-testen. Hvis tabellen genereres ud fra ægte genotyper, følger G-statistikken asymptotisk en chi-firkantet fordeling med 1 grad af frihed (lyr2(1)). Imidlertid, i vores undersøgelser, vi konstruerer G-statistikken ved hjælp af “kaldte” genotyper, således at vi muligvis ikke holder på grund af over – og underopkald af heterosygoter. Desuden introducerer konstruktion af teststatistikken ved at tælle “kaldte” genotyper i stedet for “observerede” genotyper sandsynligvis ekstra variation. Derfor er den statistiske teori muligvis ikke længere gyldig. Bemærk, at når en genotype ikke kaldes for et bestemt individ, betragtes dataene som manglende og er ikke inkluderet i 2-tabellen 2.
Sandsynlighedsforholdstest, der tegner sig for usikkerhed i de observerede genotyper til associeringskortlægning
i stedet for at kalde genotyper, sandsynlighedsrammen muliggør usikkerhed i genotyperne og testene på hvert sted j om allelfrekvensen er den samme mellem tilfælde og kontroller. Formelt beregner vi sandsynligheden for hypoteserne H o: p j ,1 = p j, 2(= p j, 0) og H A : p j, 1 p j, 2 ,hvor p j ,1 og p j, 2 er MAF ‘ erne i henholdsvis tilfælde og kontrol.
Hvis man antager, at mindre (m) og større (m) alleler er kendt, kan sandsynligheden for den mindre allelfrekvens beregnes som beskrevet i ligning 2, og sandsynlighedsforholdet teststatistik beregnes som:
hvor og er de observerede data for henholdsvis tilfælde og kontroller og og er Mles for MAF ‘ erne i henholdsvis sager og kontroller.
Hvis den mindre allel er ukendt, beregnes sandsynligheden under nulhypotesen som i ligning 3, og LRT-statistikken ændres som:
hvor D j er de observerede data for begge tilfælde og kontroller, og er allelfrekvensen under nulhypotesen. Andre notationer er de samme som i ligning 6.
estimering af MAF i simulerede data
vi sammenligner estimaterne af allelfrekvens på simulerede data ved hjælp af ægte genotyper (True), kaldet genotyper uden nogen filtrering (Call NF), kaldet genotyper med filtrering (f = 1; Call F) og den maksimale sandsynlighedsmetode (ML). For sjældne SNP ‘ er er den mindre alleltype ofte ikke synlig. Når man kalder genotyper, antages det næst mest almindelige nukleotid at være den mindre allel. ML-metoden inkorporerer direkte usikkerhed ved bestemmelse af den mindre allel, og medmindre andet er angivet, vises resultater ved hjælp af den ukendte mindre allelmetode (ligning 3). Bemærk, at den ukendte mindre allel ML-metode fungerer på samme måde som den kendte mindre allel ML-metode, men den førstnævnte bedre for meget sjældne SNP ‘ er (yderligere fil 1).
vi vurderede først, hvor godt de forskellige tilgange var i stand til at estimere MAF i 200 individer på tværs af en række sekventeringsdybder for 1.000 SNP ‘ er med en ægte MAF på 5%. Figur 1 viser boksplots af fordelingen af estimerede MAF ‘ er ved hjælp af de fire forskellige tilgange. Som forventet, for højere dækningsdata, såsom en individuel dybde på 12 liter, fungerer alle metoderne såvel som når genotyperne er kendt med sikkerhed (sandt). Men når dybden falder, bliver estimaterne af MAF opnået ved først at kalde genotyper partisk. For eksempel er median MAF estimeret ved hjælp af Call F-metoden 5,3% ved 6 liter dækning og er 12,5% ved 2 liter. Årsagen til den opadgående bias er, at det bliver sværere at kalde heterosygoter, da ægte heterosygoter ofte ligner sekventeringsfejl. Derfor har flere heterosygoter end mindre homosygoter tendens til at have manglende genotyper. Imidlertid er den samlede bias i MAF-estimater fra kaldte genotyper ikke altid i en retning (data ikke vist). Interessant nok synes bias at være værre for Call F-metoden end Call NF-metoden. Dette mønster kan virke kontraintuitivt, da filtrering af genotypeopkald synes at mindske sandsynligheden for at kalde en sekventeringsfejl en heterosygote. Opkald f-metoden resulterer imidlertid også i en større mængde manglende data, da mange homosygoter til den store allel ikke kaldes på grund af sekventeringsfejl. I dette tilfælde synes det at være den bedre strategi at kalde genotyper uden filtrering end at filtrere genotyper, når man prøver at estimere MAF.
resultaterne er dramatisk forskellige for den nye ML-metode. Denne metode giver upartiske estimater af MAF (median på ~4,9%) på tværs af en række dybder. Selv ved 2. kr. viser estimaterne kun en lidt større varians end dem, der er baseret på de sande genotyper.
Vi sammenlignede også den estimerede gennemsnitlige kvadratiske fejl (MSE; forventning () af de forskellige estimater af MAF på tværs af en række sekventeringsdybder (figur 2). ML-metoden har en lavere MSE end opkaldsmetoderne med 50 eller 200 individer. Især er MSE beregnet baseret på Call F-metoden meget højere end dem fra de andre metoder, især når dybden falder. MSE af estimaterne af MAF baseret på de sande genotyper afspejler den nedre grænse for MSE og er ikke konstant på tværs af dybder på grund af prøveudtagningsvarians og en endelig prøvestørrelse. Ved hjælp af 50 individer nærmer MSE sig 0,0005 med stigende dybde, og når man bruger en prøvestørrelse på 200 individer, nærmer den sig 0,0013 med stigende dybde.