Estimering av allelfrekvens og assosieringskartlegging ved hjelp av neste generasjons sekvenseringsdata

det mindre allelet er det mindre hyppige allelet i populasjonen på et variabelt sted. Vi beskriver først to hovedmetoder for å estimere den mindre allelfrekvensen (MAF) på et bestemt sted i genomet. Den første tilnærmingen innebærer å utlede individuelle genotyper og behandle de utledede genotyper som å være helt nøyaktig når estimering AV MAF. Vi undersøker deretter ytelsen til et sannsynlighetsramme som direkte tar hensyn til usikkerheten ved tildeling av genotyper. Gjennom vårt arbeid antar vi at alle segregerende nettsteder er bialleliske.

Estimering AV MAF fra kalt genotyper

En måte å estimere MAF fra neste generasjons sekvenseringsdata er å først kalle en genotype for hvert individ ved hjelp av sekvenseringsdata, og deretter bruke disse genotypene som om de er de sanne. Dette var tilnærmingen tradisjonelt brukt for genotype data og Sanger sekvensering data. Det er ikke klart hvor godt det vil utføre når det brukes på neste generasjons sekvenseringsdata.

en maksimal sannsynlighet tilnærming kan brukes til å utlede genotypen for hvert individ fra neste generasjons sekvenseringsdata. På hvert sted j, for hver enkelt i, er sannsynligheten for hver av de tre mulige genotypene (forutsatt at vi vet det mindre allelet) gitt som:

(1/div> og kontroll for sekvenseringsfeil og lese basekvaliteter,henholdsvis. De observerte sekvenseringsdataene for hver enkelt person kan betraktes som justeringen av leser på sted j, og tar hensyn til lesekvalitetspoengene. Dette er representert som genotype sannsynlighet og finnes i genotype sannsynlighet fil (GLF) som er produsert i mange programmer som analyserer neste generasjons sekvenseringsdata, slik som SOAPsnp og MAQ .

for å tildele en genotype til et bestemt individ, kan sannsynligheten for hver av de tre mulige genotypene beregnes for individet. Genotypen med høyest sannsynlighet kan da tildeles. Imidlertid foretrekker forskere ofte et strengere kallskriterium og vil ikke tildele en genotype til et individ, med mindre den mest sannsynlige genotypen er vesentlig mer sannsynlig enn den nest mest sannsynlige. Her sorteres de tre mulige genotypene etter deres sannsynlighet: , hvor g (k)tilsvarer genotypen med k th største sannsynlighet. Med en gitt terskel f kan man kalle genotypen g(1) hvis . Ellers kalles ikke en genotype, og individets genotype anses å mangle. En felles terskelverdi på f er 1, noe som indikerer at den mest sannsynlige genotypen er minst 10 ganger mer sannsynlig enn den nest mest sannsynlige. Merk at denne typen filtrering kan føre til høyere tillit for» kalt » genotype, men det resulterer også i mer manglende data.

Maksimal sannsynlighet estimator av allel frekvens

I Stedet for å estimere MAF fra de kalt genotyper, en maksimal sannsynlighet (ML) metode introdusert Av Kim et al. (Se Også Lynch for en lignende tilnærming) anslår Direkte MAFs og tar hensyn til genotype usikkerhet. Spesielt, gitt en mindre allel, er sannsynligheten for å observere sekvensdataene ved hver enkelt i oppnådd ved å summere over sannsynlighetene som svarer til alle tre mulige genotyper.

Anta at de tre genotype sannsynlighetene definert i Ligning 1 er tilgjengelige. Ved å bruke samme notasjon som ovenfor, la D j og p j være de observerte sekvenseringsdataene på henholdsvis sted j og tilsvarende MAF. Genotype sannsynligheten gitt at mindre allel frekvens kan beregnes ved å anta Hardy-Weinberg likevekt (HWE). Da, forutsatt uavhengighet blant individer, er sannsynligheten FOR MAF på dette stedet et produkt av alle sannsynlighetene beregnet på tvers Av alle n individer:

(2)

ML-estimatet av p j kan beregnes enten ved direkte å maksimere sannsynligheten for et begrenset parameterområde ved hjelp Av Broyden-Fletcher-Funksjonen .goldfarb-shanno (bfgs) metode eller ved hjelp av forventning-maksimering (em) algoritme. VED BRUK AV em-algoritmen beregnes den bakre forventningen til en genotype for hver enkelt person, og gjennomsnittet av disse posteriorene oppdateres gjentatte ganger. Vår implementering AV BFGS var raskere ENN EM algoritmen. FOR eksempel, for å få estimater fra 100.000 nettsteder, TOK BFGS ~16 sekunder, MEN EM tok ~100 sekunder. Forskjellen i hastighet kan imidlertid være implementeringsspesifikk. I vårt tilfelle, for begge metodene, stoppet vi med å oppdatere parametere når økningen i sannsynligheten var mindre enn 0.001.

Maksimal sannsynlighets estimator med usikkert mindre allel

i praksis kan ofte det nest vanligste nukleotid på tvers av individer brukes som mindre allel. MAF < 1%), er det imidlertid vanskelig å avgjøre hvilket allel som er det mindre allelet, siden alle fire nukleotidene kan vises i noen leser på grunn av sekvenseringsfeil. For å håndtere denne situasjonen beskriver vi nå et sannsynlighetsramme som tar hensyn til usikkerheten i bestemmelsen av det mindre allelet.

Anta at for site j kjenner vi den store allelen M. Merk at å avgjøre hvilken av to vanlige alleler som sannsynligvis vil være den store, er ikke viktig siden vi for det meste er opptatt av å estimere frekvensene ved sjeldne SNPs. Videre, for alleler med mellomfrekvenser (rundt 50%), er skillet mellom større og mindre allel mindre viktig. Tilordne de andre tre ikke-store nukleotidene m1, m2 og m3. Sannsynligheten introdusert i Ligning 2 antar et fast stort allel M Og fast mindre allel m. derfor, for å tillate usikkerhet i betegnelsen av det mindre allelet, kan sannsynlighetsfunksjonen endres som:

(3)

videre, forutsatt at noen av de tre mulige mindre alleler er like sannsynlig, får vi:

(4)

hvor . Siden kan være svært liten med store datasett (f.eks. med mange individer), er det nyttig å beregne sannsynligheten i loggskalaen. Bestill de tre betingede log-likelihoods som til (l (1), l (2), l (3)), hvor l(1) er den største. Deretter

G-test ved hjelp av kalt genotyper for assosiasjon kartlegging

i assosiasjonsstudier, SNPs viser signifikante forskjeller i allel frekvens mellom tilfeller og kontroller sies å være assosiert med fenotype av interesse. Tilknytningskartlegging kan utføres ved hjelp av data fra neste generasjons sekvenseringsstudier. Vi diskuterer først tilnærminger som krever å ringe individuelle genotyper og deretter utføre en test for forening ved hjelp av de kalt genotyper. I denne tilnærmingen kalles en genotype først for hver enkelt person. Genotypene kan filtreres eller ufiltreres. Forutsatt uavhengighet på tvers av enkeltpersoner og HWE, kan en 2 × 2 beredskapstabell bygges ved å telle antall store og mindre alleler i både tilfeller og kontroller. Dette fører til den velkjente sannsynlighets ratio test for uavhengighet, G-test:

(5)

Hvor O k,h er frekvensen observert i en celle, Og E k,h er frekvensen forventet under nullhypotesen der allelfrekvensen er den samme mellom tilfeller og kontroller. Den velkjente Pearsons chi-square-test er asymptotisk ekvivalent Med G-testen. Hvis tabellen er generert fra ekte genotyper, følger g-statistikken asymptotisk en chi-kvadratfordeling med 1 frihetsgrad(χ2 (1)). Men i våre studier konstruerer Vi g-statistikken ved hjelp av» kalt » genotyper, og DERMED KAN HWE ikke holde på grunn av over-og underkall av heterozygoter. Videre introduserer konstruksjon av teststatistikken ved å telle» kalt «genotyper i stedet for» observerte » genotyper sannsynligvis ekstra variabilitet. Derfor kan den statistiske teorien ikke være gyldig lenger. Merk at når en genotype ikke kalles for en bestemt person, anses dataene å mangle og er ikke inkludert i 2 × 2-tabellen.

Sannsynlighets ratio test regnskap for usikkerhet i de observerte genotyper for assosiering kartlegging

I Stedet for å kalle genotyper, sannsynligheten rammeverket gir mulighet for usikkerhet i genotyper og tester på hvert sted j om allelet frekvensen er den samme mellom tilfeller og kontroller. Formelt beregner vi sannsynligheten For hypotesene H O: p j ,1 = p j, 2 (=p j, 0) Og H A : p j, 1 ≠ p j, 2 ,hvor p j ,1 og p j, 2 er MAFs i saker og kontroller, henholdsvis.Forutsatt at mindre (m) og store (M) alleler er kjent, kan sannsynligheten for den mindre allelfrekvensen beregnes som beskrevet i Ligning 2, og sannsynlighets ratio test statistikk beregnes som:

(6)

hvoroger de observerte dataene for henholdsvis tilfeller og kontroller ogoger mles av mafs i tilfeller og kontroller, henholdsvis.

hvis det mindre allelet er ukjent, beregnes sannsynligheten under nullhypotesen som I Ligning 3, OG lrt-statistikken endres som:

(7)

Hvor D j er de observerte dataene for både tilfeller og kontroller, og er allelfrekvensen under nullhypotesen. Andre notasjoner er de samme som I Ligning 6.

Estimering AV MAF i simulerte data

vi sammenligner estimatene for allelfrekvens på simulerte data ved hjelp av ekte genotyper (True), kalt genotyper uten filtrering (Call NF), kalt genotyper med filtrering (f = 1; Call F), og maksimal sannsynlighetsmetode (ML). For sjeldne SNPs er den mindre alleltypen ofte ikke åpenbar. Når man kaller genotyper, antas det nest vanligste nukleotid å være den mindre allelen. ML-metoden inkorporerer direkte usikkerhet ved å bestemme det mindre allelet, og med mindre annet er angitt, vises resultater ved hjelp av den ukjente mindre allelmetoden (Ligning 3). Merk at den ukjente minor ALLEL ML-metoden utfører på samme måte som den kjente minor ALLEL ML-metoden, men den tidligere bedre for svært sjeldne SNPs (Tilleggsfil 1).Vi evaluerte først hvor godt de forskjellige tilnærmingene var i stand til å estimere MAF i 200 individer på tvers av en rekke sekvenseringsdybder for 1000 SNPs med en sann MAF på 5%. Figur 1 viser boxplots av fordelingene av estimerte MAFs ved hjelp av de fire forskjellige tilnærmingene. Som forventet, for høyere dekningsdata, for eksempel en individuell dybde på 12×, utfører alle metodene så vel som når genotypene er kjent med sikkerhet (Sant). Men når dybden minker, blir estimatene AV MAF oppnådd ved første kallende genotyper partisk. For eksempel er median MAF estimert ved Bruk Av Call F-metoden 5.3% ved 6× dekning og er 12.5% ved 2×. Årsaken til oppadgående bias er at det blir vanskeligere å kalle heterozygoter siden ekte heterozygoter ofte ser ut som sekvenseringsfeil. Derfor har flere heterozygoter enn mindre homozygoter en tendens til å ha manglende genotyper. Den generelle bias i maf estimater fra kalt genotyper er imidlertid ikke alltid i en retning (data ikke vist). Interessant synes bias å være verre For Call F-metoden enn Call NF-metoden. Dette mønsteret kan virke bakvendt siden filtrering av genotype samtaler synes å redusere sannsynligheten for å kalle en sekvenseringsfeil en heterozygot. Kall f-metoden resulterer imidlertid også i en større mengde manglende data siden mange homozygoter for hovedallelet ikke vil bli kalt på grunn av sekvenseringsfeil. Dermed, i dette tilfellet, kaller genotyper uten filtrering synes å være bedre strategi enn filtrering genotyper når du prøver å anslå MAF.

Figur 1
figure1

Estimater av allelfrekvens på steder med en sann MAF på 5% for forskjellige dybder av dekning. På hver dybde ble 1000 steder simulert ved hjelp av 200 individer, og på hvert sted beregnes et estimat av allelfrekvens ved hjelp av: (1) sanne genotyper (True); (2) kalt genotyper uten filtrering (Call NF); (3) kalt genotyper med filtrering (Call F); og (4) maksimal sannsynlighetsmetode (ML). For mer informasjon om estimeringsmetodene, se Metoder.

resultatene er dramatisk forskjellige for DEN nye ML-metoden. Denne metoden gir objektive estimater AV MAF (median på ~4.9%) over en rekke dybder. Selv ved 2× viser estimatene bare en litt større varians enn de som er basert på de sanne genotypene.

vi sammenlignet også den estimerte gjennomsnittlige kvadrerte feilen (MSE; Forventning () av DE forskjellige estimatene AV MAF over en rekke sekvenseringsdybder (Figur 2). ML-metoden har en lavere MSE enn kallemetodene med 50 eller 200 personer. SPESIELT er MSE beregnet basert på Call F-metoden mye høyere enn de fra de andre metodene, spesielt når dybden minker. MSE av estimatene TIL MAF basert på de sanne genotypene reflekterer den nedre grensen TIL MSE og er ikke konstant over dybder på grunn av prøvetakingsvarians og en endelig prøvestørrelse. Ved hjelp av 50 individer nærmer MSE 0.0005 med økende dybde, og når du bruker en prøvestørrelse på 200 individer, nærmer DEN seg 0.0013 med økende dybde.

Figur 2
figure2

Gjennomsnittlig squred feil (MSE; Forventet ) av fire forskjellige typer av allel frekvens estimatorer for ulike utvalgsstørrelser (venstre og høyre panel) og dybder av dekning (x-aksen). PÅ hver dybde ble MSE beregnet ut fra allelfrekvensestimatene som ble gjort ved hjelp av fire forskjellige metoder: True, Call NF, Call F og ML (for detaljer om metodene, se bildeteksten I Figur 1).

Samlet sett utfører DEN nye ML-metoden genotypekallingsmetoder.

Estimere en fordeling Av MAFs fra simulerte data

vi undersøker deretter hvordan de forskjellige estimeringstilnærmingene ble utført ved å estimere andelen Snper ved forskjellige frekvenser i populasjonen (lik frekvensspekteret på stedet, men basert på populasjonsallelfrekvens i stedet for prøvefrekvens). Her simulerte vi 20.000 Snper hvor fordelingen av de sanne MAFs fulgte standard stasjonær fordeling for en effektiv populasjonsstørrelse på 10.000 (Se Metoder). Merk at i praksis er det imidlertid svært vanskelig å skille en svært sjelden SNP fra en sekvenseringsfeil. Derfor, for sammenligning formål med reelle data, forkastet Vi SNPs med estimert MAF mindre enn 2%. Figur 3 viser andelen Snper som faller inn i hver annen frekvensbøtte etter å ha ekskludert Disse Snpene med estimert MAF<2%.

Figur 3
figure3

Fordeling av Allelfrekvenser Av SNPs simulert forutsatt standard stasjonær fordeling av allelfrekvenser. Ved hver dybde (hvert panel) ble 20.000 Snp simulert, og for HVER SNP ble estimater av MAF oppnådd ved hjelp av fire forskjellige metoder (se bildeteksten I Figur 1). Deretter, for hver metode (hver farge), brukes bare nettsteder med estimerte allelfrekvenser > 2% til å generere hvert histogram (x-akse).

som forventet, med høy dekningsdybde, for eksempel 10× per person, gir alle metoder estimerte MAF-distribusjoner som ligner den forventede distribusjonen basert på de sanne genotypene (Figur 3). Med en grunnere dekningsdybde, for eksempel mindre enn 4× per person, avviker distribusjonene Av MAFs oppnådd ved genotypekallingsmetoder betydelig fra den forventede MAF-distribusjonen basert på ekte genotyper (Figur 3). Spesielt overvurderer disse metodene andelen lavfrekvente Snper. For eksempel er den forventede andelen Snper i den andre bin (estimert MAF mellom 2-4%) 18%. Tilsvarende andel basert PÅ Call NF-metoden på en dybde på 4× er 26%, som er 1,4 ganger høyere enn forventet. Den overestimering av andelen av lavfrekvente SNPs oppstår på grunn av forvirring av sekvenseringsfeil med ekte heterozygoter, noe som resulterer i overcalling heterozygote genotyper. Størrelsen på denne inflasjonen varierer på tvers av ulike filtreringskutt, men en større cutoff øker eller reduserer ikke nødvendigvis inflasjonen.

bildet er helt annerledes FOR ML-metoden. Den estimerte maf-distribusjonen oppnådd fra DEN nye ML-metoden følger nøye den sanne distribusjonen selv med grunne dybder av dekning. Her er det nesten ikke noe overskudd av lavfrekvente SNPs. Ved en dybde på 4× er andelen Snper i den andre beholderen av histogrammet 18,4%, noe som er svært nær forventet andel (18%). Og dermed, mer pålitelige estimater av frekvensspekteret kan gjøres fra lav dekning data ved hjelp av vår sannsynlighet tilnærming enn ved hjelp av genotype ringer tilnærminger.

Assosiasjonskartlegging i simulerte data

vi sammenligner resultatene av metoder som behandler utledede genotyper som sanne genotyper i assosiasjonstester (ved Hjelp Av En G-test) med vår sannsynlighets ratio test (lrt) som står for usikkerhet i genotypene. Vi undersøker fordelingen av teststatistikken under nullhypotesen om ingen allelfrekvensforskjell mellom tilfeller og kontroller. Vi sammenligner også kraften i de ulike tilnærmingene.med relativt store utvalgsstørrelser antyder standard asymptotisk teori at under nullhypotesen følger Både g-statistikken og lrt-statistikken en chi-kvadratfordeling med en frihetsgrad (χ2(1)). Derfor har vi sammenlignet nullfordelingen av G-statistikken beregnet på grunnlag av anropsmetoder og lrt-statistikken til χ2 (1) fordelingen VED HJELP AV QQ-plott (Figur 4). Vi simulerte 5000 SNPs over en rekke sekvenseringsdybder i 500 tilfeller og kontroller hvor MAF brukes til å simulere genotyper var 5% i begge tilfeller og kontroller. Fordelingen Av g-statistikken beregnet ved bruk av de sanne genotypene viser meget god korrespondanse med en χ 2(1) distribusjon. Fordelingen Av g-statistikken som er beregnet basert på de såkalte genotypene, avviker imidlertid vesentlig fra en χ 2(1) – distribusjon. Å kalle genotyper og deretter behandle disse genotypene som nøyaktige, gir et stort overskudd av falske positive signaler hvis p-verdiene beregnes ved hjelp av en χ 2(1) distribusjon. For eksempel, ved en dybde på 2×, hadde 11% Av Snpene en p-verdi mindre enn 5%, sammenlignet med forventet 5%. Effekten er forårsaket av en økning i variansen, på grunn av overcalling homozygoter som heterozygoter, i allel testen som brukes her for å oppdage forening. Genotypiske tester Som Armitage trend test, som er robuste for avvik Fra Hardy-Weinberg-likevekt, viser ikke en tilsvarende økning i den falske positive frekvensen (Tilleggsfil 2). I samsvar med denne observasjonen resulterer filtrering av de kalt genotypene i en reduksjon i fraksjonen av signifikante tester ved Bruk Av G-testen, selv om filtrering ikke løser problemet helt. PÅ DEN annen side viser lrt-statistikken bare et svært lite avvik fra en χ2(1) – distribusjon til enten 2× eller 5×

Figur 4
figure4

QQ-tomter som sammenligner nullfordelingen av teststatistikken av interesse med en χ2 (1) fordeling. Hver kolonne tilsvarer en annen teststatistikk: (1) g-statistikk beregnet ved hjelp av sanne genotyper (True); (2) G-statistikk beregnet ved hjelp av kalt genotyper uten filtrering (Call NF); (3) g-statistikk beregnet ved hjelp av kalt genotyper med filtrering( Call F); og (4) sannsynligheten ratio test statistikk med ukjent mindre allel (LRT). Forutsatt 500 tilfeller og 500 kontroller, under nullhypotesen, ble et sett på 5000 steder simulert MED EN MAF på 5% med en sekvenseringsdybde på 2× (øvre paneler) og 5× (nedre paneler). «Inflasjonsfaktoren» vises i øvre venstre hjørne av hver figur.

vi har også generert mottaker drifts karakteristiske (ROC) kurver for hver av de forskjellige assosiasjonstester. Disse kurvene viser testens kraft ved forskjellige falske positive priser. Siden fordelingene av noen av teststatistikkene ikke følger χ 2 (1) fordelingen under nullhypotesen, for å gjøre en rettferdig sammenligning, oppnådde vi den kritiske verdien for hver falsk positiv rate basert på den empiriske nullfordelingen. Kraften beregnes som brøkdel av simulerte sykdomslokier som har en statistikk som overstiger den kritiske verdien. Samlet sett finner VI AT LRT utfører bedre Enn G-testen basert på enten genotype kallemetode (Figur 5). For eksempel, ved en 5% falsk positiv hastighet og med en sekvenseringsdybde på 5×, er kraften til å oppdage et sykdomslokus med EN MAF på 1% og en relativ risiko (RR) på 2 51% med LRT, men kraften faller til 33% ved hjelp av anropsmetoden uten filtrering og til 34% ved hjelp av anropsmetoden med filtrering. Spesielt ved lav dybde utfører G-testen på kalt genotyper med filtrering svært dårlig (venstre mest kolonne i Figur 5). Hvis vi sammenligner KRAFTEN TIL LRT med Armitage trend test ved hjelp av kalt genotyper, finner VI AT LRT også har høyere effekt enn Armitage trend test (Tilleggsfil 3). Dette antyder at hvis man ønsker å bruke kalt genotyper, kan filtrering av dem basert på samtaletillit føre til tap av kraft.

Figur 5
figure5

mottaker driftskarakteristikk (ROC) kurver av fire tester av foreningen. For definisjonen av de fire statistikkene, se bildeteksten I Figur 4. Forutsatt 500 tilfeller og 500 kontroller, ble et sett på 20 000 nettsteder simulert under null og under alternativet ved individuelle sekvenseringsdybder på 2×, 5× og 10× (tre kolonner). Ved hver falsk positiv hastighet (x-akse) ble den tilsvarende kritiske verdien beregnet ved hjelp av den empiriske nullfordelingen. Den sanne positive frekvensen (kraft; y-akse) ble oppnådd ved å beregne brøkdelen av forårsakende steder med teststatistikk som overstiger den kritiske verdien.

Søknad til ekte data

vi analyserte 200 eksomer fra kontroller for en sykdomsforeningsstudie som har blitt sekvensert ved Hjelp Av Illumina-teknologi på en per-individuell dybde på 8× . Vi brukte genotype sannsynlighetene generert av» SOAPsnp » program for vår slutning. For mer informasjon, se Metoder.Først undersøkte vi nøyaktigheten AV estimatene FOR MAF fra neste generasjons sekvenseringsdata for 50 SNPs ved å sammenligne Dem med estimerte MAFs fra Sequenom genotype data. Både estimatene ved HJELP AV ML-metoden og genotype-kallemetoden uten filtrering er sterkt korrelert med estimatene fra Sequenom-genotypedataene (dvs.en liten standardisert forskjell mellom De to estimatene I Figur 6). Imidlertid viser estimater basert på genotype kall med filtrering dårlig korrespondanse til frekvensene estimert fra Sequenom genotype data, spesielt når sekvenseringsdybden er lav. Interessant er det en SNP hvor estimert MAF fra resequencing data er svært forskjellig fra estimatet oppnådd fra Sequenom genotype data, selv om sekvenseringsdybden er svært høy (14×). SPESIELT er estimert MAF fra Sequenom genotype data 22,5%, men er 17,2% når estimert VED HJELP AV ML tilnærming. Individuell undersøkelse viser at hos mange individer er den sterkt støttede genotypen basert på sekvenseringsdataene forskjellig fra Sequenomgenotypene. Gitt at DENNE SNP er dekket av mange leser i disse personene, og at de observerte lesebaser har høy kvalitet score (> Q20), er det sannsynlig at forskjellen skyldes Sequenom genotyping feil. Merk at det er et par SNPs der de estimerte MAFs fra genotype ringer tilnærming uten filtrering synes å bedre svarer Til MAFs estimert fra Sequenom genotyping enn estimatene FRA ML tilnærming gjør. For eksempel, ved EN SNP estimert MAF er 25,7% Fra Sequenom genotype data, 25.9% fra genotype kallemetoden uten filtrering, og 27,2% FRA ML-metoden. Derimot, individuell inspeksjon avslører det er noen individer som kalles genotype fra sekvensering data skiller Seg fra Sequenom genotype. I disse tilfellene, feil i de kalt genotyper avbrutt, noe som gir inntrykk av bedre korrespondanse Med Sequenom genotype data. Derfor, for Disse SNPs, er det vanskelig å si hvilken metode som fungerer best.

Figur 6
figure6

Estimater av allel frekvens beregnet fra 200 individer ved hjelp av neste generasjons sekvenseringsdata vs. Sequenom genotype data. På hvert sted, bare personer som har Både Sequenom genotype data og sekvenseringsdata ble brukt for estimering av allel frekvens. For sekvenseringsdataene ble estimater AV MAF oppnådd ved hjelp av tre forskjellige metoder (Ring NF; Ring F; OG ML). Den standardiserte forskjellen for hvert estimat ble beregnet som , hvor og er estimerte MAFs fra henholdsvis sekvenseringsdata og Sequenomgenotypedata, og n er antall individer som brukes til estimeringen. Hvert område er klassifisert i en av fire binger basert på gjennomsnittlige individuelle dybde av dekning (farge): mindre enn 4×, høyere enn 4× men mindre enn 8×, som er høyere enn 8×, men mindre enn 16×, og høyere enn 16×.

vi undersøkte deretter fordelingen Av MAFs beregnet ved hjelp av flere tilnærminger på tvers av en rekke sekvenseringsdybder fra våre neste generasjons exome-sekvenseringsdata (Figur 7). Vi forkastet SNPs med estimert MAF < 2% siden det er vanskelig å skille disse svært lavfrekvente SNPs fra sekvenseringsfeil i dette datasettet. Vi fjernet videre nettsteder der det var en signifikant forskjell (p-verdi mindre enn 10-5 ved hjelp av en rang-sum-test) i kvalitetspoeng av lesebaser mellom de mindre og store allelene. Disse nettstedene er sannsynligvis kunstige Snper som kan oppstå på grunn av feil kartlegging eller ukjente forstyrrelser introdusert under forsøksprosedyren. Da klassifiserte vi hvert område i hyller basert på dybden av dekning. Antall SNPs i hver bin er vist I Tabell 1. Når gjennomsnittsdybden er mindre enn 9×, er fordelingene av estimerte MAFs basert på genotypekallingsmetoder svært forskjellige fra DEN som er basert PÅ ML-metoden. Nærmere bestemt gir genotypen kallende tilnærminger et stort overskudd av lavfrekvente SNPs (MAF mellom 2% og 4%). Dette mønsteret speiler det som ble sett i våre simuleringsstudier(Figur 3). Også, for genotype ringer metoder, allelet frekvensfordeling endres dramatisk som sekvensering dybde endringer. Derfor, som diskutert tidligere, når dybden ikke er veldig høy, vil genotyping kallemetoder sannsynligvis inkludere mange falske Snper som er sekvenseringsfeil. Disse feilene vises som et overskudd av lavfrekvente Snper i frekvensfordelingen. Fordelingen BASERT PÅ ML-metoden er mer stabil på tvers av dybder, men det er fortsatt et overskudd Av Snper med lav allelfrekvens med dybde mindre enn 9×sammenlignet med andelen av lavfrekvente Snper ved større dybder.

Figur 7
figure7

Fordeling av den mindre allelfrekvensen estimert fra eksomene til 200 sekvenserte individer. For hvert område, den mindre allel frekvens ble estimert ved hjelp av fire forskjellige metoder: (1) ML-metoden med ukjent mindre allel, (2) ML-metoden med en kjent eller fast mindre allel, (3) ringer genotyper uten filtrering (Ring NF) og (4) ringer genotyper med filtrering (Ring F). Hvert område er klassifisert i hyller basert på dybden av dekning. Videre vurderes ikke steder med estimert MAF mindre enn 2% i hvert histogram. For Antall Snper som ble brukt til denne analysen, se Tabell 1.

Tabell 1 Antall Snper med estimert MAF større enn 2% ved hjelp av en bestemt metode (rad) innenfor hver bin (kolonne) definert av gjennomsnittlig sekvensdybde på tvers av individer.

Til Slutt brukte vi denne exome-resequencing data for å simulere en case-control association studie. For å undersøke fordelingen av assosiasjonsteststatistikken under nullhypotesen, tildelte vi tilfeldig 100 personer til en saksgruppe og de andre 100 til kontrollgruppen. For Alle Snper på kromosom 2 med maf estimater > 2% (basert på den ukjente mindre ALLEL ML-metoden), testet vi for allelfrekvensforskjeller mellom tilfeller og kontroller ved å beregne g-statistikken ved hjelp av kalt genotyper både med og uten filtrering samt lrt-statistikken. Figur 8 viser qq-plottene som sammenligner fordelingene av teststatistikken med standard χ 2(1) fordeling. Som sett i simuleringsstudier, er nullfordelingen av g-statistikken beregnet ved kall av genotyper uten filtrering vesentlig forskjellig fra χ 2 (1) – distribusjonen. Nullfordelingen av lrt-statistikken følger imidlertid tett fordelingen av χ2 (1). Inflasjonsfaktoren er 1,01, noe som betyr AT lrt-statistikken fungerer bra når den brukes på reelle data.

Figur 8
figure8

QQ-tomter som sammenligner assosiasjonsteststatistikken for allelfrekvensforskjeller mellom 100 tilfeller og 100 kontroller til en χ 2 (1) fordeling. Fenotyper ble randomisert til enkeltpersoner i exome resequencing datasettet slik at det er 100 tilfeller og 100 kontroller. For hvert område, tre statistikk ble beregnet: g-statistikken bruker kalt genotyper uten filtrering (Call NF), G-statisk ved hjelp av kalt genotyper med filtrering (Call F), OG lrt-statistikken. For å minimere inkludering av falske Snp-er, blir nettsteder med ML MAF-estimater mindre enn 2% kassert. For visningsformål vises resultater fra steder på kromosom 2. Merk at inflasjonsfaktoren er vist i ovre venstre hjorne av HVER QQ-plot.

Related Posts

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *