alleelien frekvenssin estimointi ja assosiaatiokartoitus käyttäen seuraavan sukupolven sekvensointitietoja

Vähäinen alleeli on populaation harvinaisempi alleeli muuttuvassa kohdassa. Kuvaamme ensin kaksi pääasiallista lähestymistapaa arvioidaksemme vähäisen alleelitaajuuden (Maf) tietyssä genomin kohdassa. Ensimmäinen lähestymistapa liittyy päätellä yksittäisten genotyyppien ja käsitellään näitä päätelty genotyyppien olevan täysin tarkka arvioitaessa MAF. Sen jälkeen tarkastellaan todennäköisyyskehyksen toimivuutta, jossa otetaan suoraan huomioon genotyyppien määrittelyssä ilmenevä epävarmuus. Koko työmme, oletamme, että kaikki eriytyvät sivustot ovat biallelic.

MAF: n estimointi genotyypeistä

yksi tapa arvioida MAF: ää seuraavan sukupolven sekvensointitietojen perusteella on kutsua ensin genotyyppi kullekin yksilölle sekvensointitietojen avulla ja käyttää sitten kyseisiä genotyyppejä ikään kuin ne olisivat oikeita. Tätä lähestymistapaa on perinteisesti käytetty genotyyppidatan ja Sangerin sekvensointidatan osalta. Ei ole selvää, kuinka hyvin se toimii, kun sitä sovelletaan seuraavan sukupolven sekvensointitietoihin.

suurimman todennäköisyyden menetelmää voidaan käyttää päättelemään kunkin yksilön genotyyppi seuraavan sukupolven sekvensointitietojen perusteella. Kussakin paikassa j, kunkin yksittäisen I, todennäköisyys kunkin kolmen mahdollisen genotyypin (olettaen, että tiedämme Vähäinen alleeli) on annettu:

missä D I,j on havaitut sekvenssitiedot yksilössä I paikassa j, g i , j ∈ {0, 1, 2} on kunkin yksilön genotyyppiin sisältyvien pienten alleelien lukumäärä ja ja sekvensointivirheiden ja lukupohjaominaisuuksien hallinta. Havaittu sekvensointi tiedot kunkin yksittäisen voidaan ajatella yhdenmukaistaminen lukee sivuston j ottaen lukea laatu pisteet huomioon. Tätä kutsutaan genotyypin todennäköisyydeksi, ja se löytyy genotyypin todennäköisyystiedostosta (GLF), jota tuotetaan monissa seuraavan sukupolven sekvensointitietoja analysoivissa ohjelmissa, kuten Saippuasnp: ssä ja MAQ: ssa .

genotyypin osoittamiseksi tietylle yksilölle voidaan laskea kunkin kolmen mahdollisen genotyypin todennäköisyys. Tämän jälkeen voidaan määrittää genotyyppi, jolla on suurin todennäköisyys. Tutkijat suosivat kuitenkin usein tiukempaa kutsumuskriteeriä eivätkä anna genotyyppiä yksilölle, ellei todennäköisin genotyyppi ole huomattavasti todennäköisempi kuin toiseksi todennäköisin. Tässä kolme mahdollista genotyyppiä lajitellaan niiden likiarvojen mukaan: , missä g(k)vastaa genotyyppiä k: n suurimmalla todennäköisyydellä. Tietyllä raja-arvolla f voidaan kutsua genotyyppiä g(1), jos . Muuten genotyyppiä ei kutsuta ja yksilön genotyyppi katsotaan puuttuvaksi. Yleinen kynnysarvo f on 1, mikä osoittaa, että todennäköisin genotyyppi on vähintään 10 kertaa todennäköisempi kuin toiseksi todennäköisin. Huomaa, että tämän tyyppinen suodatus voi lisätä ”kutsutun” genotyypin luottamusta, mutta se johtaa myös siihen, että tietoja puuttuu enemmän.

Alleelitaajuuden maksimitodennäköisyyden estimaattori

sen sijaan, että estimoitaisiin MAF-arvo niin sanotuista genotyypeistä, käytetään Kim et al: n esittelemää maksimitodennäköisyysmenetelmää (ML). (Katso myös Lynch samankaltaisesta lähestymistavasta) arvioi suoraan MAF: T ja ottaa genotyypin epävarmuuden huomioon. Kun otetaan erityisesti huomioon pieni alleeli, todennäköisyys havaita sekvenssitiedot kussakin yksilössä i saadaan laskemalla yhteen kaikkia kolmea mahdollista genotyyppiä vastaavat todennäköisyydet.

Oletetaan, että yhtälössä 1 määritellyt kolme genotyyppiä ovat käytettävissä. Käyttäen samaa merkintää kuin edellä, olkoot D j ja p j havaitut sekvensointitiedot kohdassa j ja vastaava MAF. Genotyypin todennäköisyys, Kun otetaan huomioon vähäisen alleelin taajuus, voidaan laskea olettamalla Hardy-Weinberg-tasapaino (HWE). Tällöin oletetaan yksilöiden välinen riippumattomuus, MAF: n todennäköisyys tässä lokuksessa on kaikkien kaikkien n-yksilöiden kesken laskettujen likiarvojen tulo:

(2)

p j: n ML-estimaatti voidaan laskea joko suoraan maksimoimalla todennäköisyys rajatulle parametriavaruudelle Broyden-Fletcher-Goldfarbin avulla-shanno (bfgs) menetelmä tai käyttämällä odotus-maksimointi (em) algoritmi . EM-algoritmia käytettäessä genotyypin posteriorinen odotus lasketaan kullekin yksilölle, ja näiden posterioreiden keskiarvo päivitetään toistuvasti. Bfgs: n toteutus oli nopeampaa kuin EM-algoritmin. Esimerkiksi saada arvioita 100,000 sivustoja, BFGS kesti ~16 sekuntia, mutta EM kesti ~100 sekuntia. Nopeusero voi kuitenkin olla toteutuskohtainen. Meidän tapauksessamme molempien menetelmien osalta lopetimme parametrien päivittämisen, kun todennäköisyyden nousu oli alle 0,001.

Maksimitodennäköisyyden estimaattori, jossa epävarma molli-alleeli

käytännössä voidaan usein käyttää molli-alleelina yksilöiden toiseksi yleisintä nukleotidia. Harvinaisten SNP: iden (esim.MAF < 1%) osalta on kuitenkin vaikea määrittää, mikä alleeli on vähäinen alleeli, koska kaikki neljä nukleotidia saattavat esiintyä joissakin lukuissa sekvensointivirheiden vuoksi. Tämän tilanteen käsittelemiseksi kuvataan nyt todennäköisyyskehys, jossa otetaan huomioon alaikäisen alleelin määrittämisessä ilmenevä epävarmuus.

Oletetaan, että paikkakunnalle j tunnemme pääalleelin M. Huomaa, että päättää, mitkä kaksi yhteistä alleelit on todennäköisesti suuri yksi ei ole tärkeää, koska olemme enimmäkseen huolissaan arvioimalla taajuudet harvinainen SNPs. Lisäksi alleeleilla, joiden frekvenssi on keskitasoa (noin 50%), duuri-ja molli-alleelin erottaminen toisistaan on vähäisempää. Määritä muut kolme ei-duurinukleotidia m1, m2 ja m3. Yhtälössä 2 esitetty todennäköisyys olettaa kiinteän pääalleelin M ja kiinteän mollialleelin M. tämän vuoksi, jotta alaikäisen alleelin nimeämisessä olisi epävarmuutta, todennäköisyysfunktio voidaan muuttaa seuraavasti:

(3)

edelleen olettaen, että jokin kolmesta mahdollisesta mollialleelista on yhtä todennäköinen, saadaan:

(4)

missä . Koska voi olla hyvin pieni isoilla tietojoukoilla (esimerkiksi monilla yksilöillä), on hyvä laskea todennäköisyys loki-asteikolla. Järjestys kolme ehdollista log-likelies kuin (l (1), l(2), l(3)), jossa l(1) on suurin. Sitten

g-testi käyttäen assosiaatiokartoitukseen kutsuttuja genotyyppejä

assosiaatiotutkimuksissa SNP: t, joissa esiintyy merkittäviä eroja alleelitiheydessä tapausten ja kontrollien välillä, katsotaan liittyvän kiinnostavaan fenotyyppiin. Assosiaatiokartoitus voidaan suorittaa seuraavan sukupolven sekvensointitutkimusten aineistoilla. Ensin keskustellaan lähestymistavoista, jotka vaativat kutsumalla yksittäisiä genotyyppejä ja sitten suorittaa testi assosiaatio käyttäen kutsutaan genotyyppejä. Tässä lähestymistavassa jokaiselle yksilölle kutsutaan ensin genotyyppi. Genotyypit voidaan suodattaa tai suodattamatta. Jos oletetaan riippumattomuus yksilöiden ja HWE: n välillä, 2 × 2-valmiustaulukko voidaan rakentaa laskemalla sekä suurten että pienten alleelien lukumäärä sekä tapauksissa että kontrolleissa. Tästä seuraa tunnettu riippumattomuuden todennäköisyystesti, g-testi:

(5)

missä O k,h on solussa havaittu frekvenssi, ja E k,h on nollahypoteesissa odotettu frekvenssi, jossa alleelitaajuus on sama tapausten ja kontrollien välillä. Tunnettu Pearsonin chi-neliötesti vastaa asymptoottisesti G-testiä. Jos taulukko syntyy todellisista genotyypeistä, niin g-statistiikka noudattaa asymptoottisesti chi-neliöjakaumaa, jossa on 1 vapausaste (χ2 (1)). Kuitenkin, tutkimuksissamme, me konstruoimme g-statistin käyttäen ”kutsuttuja” genotyyppejä, joten HWE ei välttämättä pidä heterotsygoottien yli – ja alikutsumisen vuoksi. Lisäksi testitilaston muodostaminen laskemalla ”nimetyt” genotyypit ”Havaittujen” genotyyppien sijaan tuo todennäköisesti lisää vaihtelua. Siksi tilastollinen teoria ei välttämättä ole enää pätevä. Huomaa, että kun genotyyppiä ei vaadita tietylle yksilölle, tiedot katsotaan puuttuviksi eikä niitä sisällytetä 2 × 2-taulukkoon.

Todennäköisyyssuhdetesti, jossa otetaan huomioon Havaittujen genotyyppien epävarmuus assosiaatiokartoitusta varten

sen sijaan, että kutsutaan genotyyppejä, todennäköisyyskehys sallii epävarmuuden genotyypeissä ja testeissä kussakin kohdassa j, onko alleelitiheys sama tapausten ja kontrollien välillä. Muodollisesti laskemme hypoteesien todennäköisyyden H O: p j ,1 = p j, 2 (= p j, 0) ja H A : p j ,1 ≠ PJ, 2 ,jossa p j ,1 ja P J, 2 ovat Maf-arvoja tapauksissa ja kontrolleissa.

olettaen, että molli – (m) ja duuri – (m) alleelit tunnetaan, voidaan vähäisen alleelin taajuuden todennäköisyys laskea yhtälössä 2 kuvatulla tavalla, ja todennäköisyyssuhdetestin tilastollinen arvo lasketaan seuraavasti:

missäjaovat tapausten ja kontrollien havaitut tiedot jaja ovat MAF: n mles-arvot tapauksissa ja kontrollit.

Jos molli-alleelia ei tunneta, nollahypoteesin mukainen todennäköisyys lasketaan yhtälön 3 mukaisesti ja LRT-statistiikkaa muokataan seuraavasti:

(7)

missä DJ on havaittu tieto sekä tapauksista että kontrolleista, ja on nollahypoteesin mukainen alleelitaajuus. Muut notaatiot ovat samat kuin yhtälössä 6.

estimoimalla MAF simuloidussa aineistossa

vertaamme alleelitiheyden estimaatteja simuloidussa aineistossa käyttäen true genotyyppejä (True), genotyyppejä ilman suodatusta (Call NF), genotyyppejä suodatuksella (f = 1; Call F) ja maksimitodennäköisyysmenetelmää (ML). Harvinaisilla SNP: llä Vähäinen alleelityyppi ei useinkaan ole ilmeinen. Genotyyppejä kutsuttaessa toiseksi yleisin nukleotidi oletetaan olevan molli-alleeli. ML-menetelmään sisältyy suoraan epävarmuus vähäisen alleelin määrittämisessä, ja ellei toisin mainita, esitetään tulokset tuntemattoman vähäisen alleelin menetelmällä (yhtälö 3). Huomaa, että tuntematon mollialleeli ML-menetelmä toimii samalla tavalla kuin tunnettu mollialleeli ML-menetelmä, mutta entinen parempi hyvin harvinaisille SNPs: ille (Lisätiedosto 1).

arvioimme ensin, kuinka hyvin eri lähestymistavat pystyivät arvioimaan MAF: n 200 yksilössä eri sekvensointisyvyyksillä 1 000 SNP: lle todellisen MAF: n ollessa 5%. Kuvassa 1 esitetään arvioitujen Maf-lukujen jakaumat käyttäen neljää eri lähestymistapaa. Odotetusti korkeampien kattavuustietojen, kuten yksittäisen syvyyden ollessa 12×, osalta kaikki menetelmät toimivat yhtä hyvin kuin silloin, kun genotyypit tunnetaan varmuudella (totta). Syvyyden laskiessa genotyypeillä saadut Maf-arviot kuitenkin vääristyvät. Esimerkiksi Call F-menetelmällä arvioitu MAF: n mediaani on 5,3% 6× peittoalueella ja 12,5% 2×. Syy ylöspäin suuntautuvaan harhaan on se, että heterotsygoottien kutsuminen vaikeutuu, sillä todelliset heterotsygootit näyttävät usein sekvensointivirheiltä. Siksi heterotsygooteilla on yleensä enemmän puuttuvia genotyyppejä kuin pienillä homotsygooteilla. Maf-estimaattien yleisharha ei kuitenkaan aina ole yhteen suuntaan (tietoja ei ole esitetty). Mielenkiintoista, bias näyttää olevan pahempi Call F menetelmä kuin Call NF menetelmä. Tämä kuvio voi vaikuttaa intuition vastaiselta, sillä genotyyppikutsujen suodattaminen näyttäisi vähentävän todennäköisyyttä kutsua sekvensointivirhettä heterotsygootiksi. Kutsu F-menetelmä johtaa kuitenkin myös suurempaan puuttuvan tiedon määrään, sillä monia homotsygootteja pääalleelille ei kutsuta sekvensointivirheiden vuoksi. Niinpä tässä tapauksessa genotyyppien kutsuminen suodattamatta näyttää olevan parempi strategia kuin genotyyppien suodattaminen, kun yritetään arvioida MAF: ää.

Kuva 1
kuvio1

estimaatit alleelien esiintymistiheydestä kohteissa, joiden todellinen MAF on 5% peittoalueen eri syvyyksille. Kussakin syvyydessä simuloitiin 1000 KOHDETTA Käyttäen 200 yksilöä, ja kussakin kohdassa lasketaan alleelitaajuuden arvio käyttäen: (1) true genotyypit (True); (2) kutsutaan genotyypit ilman suodatusta (Call NF); (3) kutsutaan genotyypit suodattamalla (Call F); ja (4) maksimitodennäköisyysmenetelmä (ML). Tarkempia tietoja estimointimenetelmistä on ohjeaiheessa menetelmät.

uuden ML-menetelmän tulokset ovat dramaattisesti erilaiset. Tämä menetelmä tarjoaa puolueettomia arvioita MAF (mediaani ~4,9%) eri syvyyksissä. Jopa 2×: ssa arviot osoittavat vain hieman suurempaa varianssia kuin todellisiin genotyyppeihin perustuvat.

vertailimme myös MAF: n eri estimaattien arvioitua keskimääräistä neliövirhettä (MSE; odotus () eri sekvensointisyvyyksillä (kuva 2). ML-menetelmällä on pienempi MSE kuin kutsumusmenetelmillä, joissa on 50 tai 200 yksilöä. Erityisesti, MSE laskettu perustuu Call F menetelmä on paljon suurempi kuin muiden menetelmien varsinkin kun syvyys laskee. Todellisiin genotyyppeihin perustuvien MAF-estimaattien MSE heijastaa MSE: n alarajaa, eikä se ole vakio syvyyksissä otosvarianssin ja äärellisen otoskoon vuoksi. Käyttäen 50 yksilöä MSE lähestyy 0.0005: tä lisääntyvällä syvyydellä ja käytettäessä 200 yksilön otoskokoa se lähestyy 0.0013: a lisääntyvällä syvyydellä.

kuva 2
kuvio2

Keskimääräinen sirpalevirhe (MSE; odotettu) neljästä eri eri otoskokojen alleelitaajuusestimaattorien tyypit (vasen ja oikea paneeli) ja peittoalueen syvyydet (x-akseli). Jokaisella syvyydellä MSE laskettiin alleelitaajuusarvioista neljällä eri menetelmällä: True, Call NF, Call F ja ML (tarkemmat tiedot menetelmistä, KS.Kuvan 1 kuvateksti).

kaiken kaikkiaan Uusi ML-menetelmä päihittää genotyypin kutsumenetelmät.

Estimoimalla MAF: n jakautumista simuloiduista tiedoista

seuraavaksi tarkastellaan, miten erilaiset estimointimenetelmät toimivat arvioitaessa SNP: n osuutta eri taajuuksilla populaatiossa (sama kuin alueen taajuusspektri, mutta perustuu populaation alleelitaajuuteen näytteenottotaajuuden sijaan). Tässä simuloimme 20 000 SNP: tä, joissa todellisten Maf: ien jakauma noudatti standardia stationäärijakaumaa efektiivisen populaation koon ollessa 10 000 (KS.menetelmät). Huomaa, että käytännössä hyvin harvinaista SNP: tä on kuitenkin hyvin vaikea erottaa sekvensointivirheestä. Siksi jätimme pois SNP: t, joiden arvioitu MAF on alle 2%, vertailutarkoituksessa todellisiin tietoihin. Kuviossa 3 esitetään kuhunkin eri taajuusalueeseen kuuluvien SNP: iden osuus sen jälkeen, kun ne SNP: t on jätetty pois, joiden arvioitu MAF<2%.

kuva 3
kuva3

Alleelitaajuuksien jakauma simuloituna olettaen alleelitaajuuksien vakiojakauma. Kullakin syvyydellä (jokaisessa paneelissa) simuloitiin 20 000 SNP: tä, ja kullekin SNP: lle saatiin MAF: n estimaatit neljällä eri menetelmällä (KS.Kuvan 1 kuvateksti). Tämän jälkeen kunkin menetelmän (kunkin värin) osalta käytetään vain alueita, joiden alleelitaajuudet > 2%, kunkin histogrammin (x-akselin) muodostamiseen.

odotetusti, peittyvyyden ollessa suuri, kuten 10× per yksilö, kaikilla menetelmillä saadaan arvioidut MAF-jakaumat, jotka ovat samanlaisia kuin todellisiin genotyyppeihin perustuva odotettu jakauma (kuva 3). Kun peittävyys on matalampi, esimerkiksi alle 4× yksilöä kohti, genotyypin kutsumenetelmillä saadut Maf-jakaumat poikkeavat merkittävästi todellisiin genotyyppeihin perustuvasta odotetusta MAF-jakaumasta (kuva 3). Erityisesti nämä menetelmät yliarvioivat matalataajuisten SNP: iden osuuden. Esimerkiksi SNP: n odotettu osuus toisessa roskakorissa (arvioitu MAF 2-4%) on 18%. Vastaava Call NF-menetelmään perustuva osuus 4×: n syvyydessä on 26%, mikä on 1,4-kertainen odotettua suurempi. Matalataajuisten SNP: iden osuuden yliarviointi johtuu sekvensointivirheiden sekoittumisesta aitojen heterotsygoottien kanssa, mikä johtaa heterotsygoottien genotyyppien ylittämiseen. Tämän inflaation suuruus vaihtelee eri suodatusrajojen välillä, mutta suurempi raja ei välttämättä lisää tai vähennä inflaatiota.

kuva on ML-menetelmällä täysin erilainen. Uudella ML-menetelmällä saatu arvioitu MAF-jakauma seuraa tarkasti todellista jakautumista myös matalilla peittävyyksillä. Täällä ei ole juuri mitään ylimääräistä matalataajuista SNP: tä. 4×: n syvyydessä histogrammin toisen bin SNPs: n osuus on 18,4%, mikä on hyvin lähellä odotettua osuutta (18%). Näin ollen heikon peittoalueen datasta voidaan tehdä luotettavampia arvioita todennäköisyyslähestymistavan kuin genotyypin kutsumusmenetelmien avulla.

Assosiaatiokartoitus simuloiduissa tiedoissa

vertaamme niiden menetelmien toimivuutta, joissa pääteltyjä genotyyppejä pidetään oikeina genotyyppeinä assosiaatiokokeissa (käyttäen G-testiä) todennäköisyystestiimme (LRT), jossa otetaan huomioon genotyyppien epävarmuus. Tutkimme testi-statistiikan jakautumista nollahypoteesilla, jossa ei ole alleelitaajuuseroa tapausten ja kontrollien välillä. Vertaamme myös eri lähestymistapojen voimaa.

kohtuullisen suurella otoskoolla standardiasymptoottinen teoria esittää, että nollahypoteesin mukaan sekä G-tilasto että LRT-tilasto noudattavat chi-neliöjakaumaa, jossa on yksi vapausaste (χ2(1)). Siksi olemme verranneet kutsumusmenetelmiin perustuvan g-tilaston nollajakaumaa sekä LRT-tilastoa x2 (1)-jakaumaan QQ-tontteja käyttäen (kuva 4). Simuloimme 5 000 SNP: tä eri sekvensointisyvyyksillä 500 tapauksessa ja kontrollissa, joissa genotyyppien simulointiin käytetty MAF oli 5% sekä tapauksissa että kontrolleissa. Todellisten genotyyppien avulla laskettu g-statistin jakauma osoittaa erittäin hyvää vastaavuutta χ2 (1) – jakauman kanssa. G-statistin niin sanottujen genotyyppien perusteella laskettu jakauma poikkeaa kuitenkin olennaisesti χ2(1) – jakaumasta. Genotyyppien kutsuminen ja sitten näiden genotyyppien pitäminen tarkkoina tuottaa valtavan määrän vääriä positiivisia signaaleja, jos p-arvot lasketaan käyttämällä χ2 (1) – jakaumaa. Esimerkiksi 2×: n syvyydessä 11 prosentin SNP: n p-arvo oli alle 5 prosenttia, kun odotettiin 5 prosenttia. Vaikutus johtuu varianssin kasvusta, joka johtuu homotsygoottien ylittämisestä heterotsygooteiksi alleelikokeessa, jota käytetään tässä assosiaation toteamiseen. Genotyyppitestit, kuten Armitage trend-testi, jotka ovat kestäviä Hardy-Weinberg-tasapainotilan poikkeamien suhteen, eivät osoita samanlaista väärän positiivisen tuloksen lisääntymistä (Lisätiedosto 2). Tämän havainnon mukaisesti nimettyjen genotyyppien suodattaminen vähentää merkittävien testien osuutta g-testiä käytettäessä, vaikka suodatus ei täysin ratkaise ongelmaa. Toisaalta LRT-tilasto poikkeaa vain hyvin vähän χ2 (1) – jakaumasta joko 2× tai 5× peittoalueen syvyyksissä.

Kuva 4
kuva4

QQ-käyrät, joissa verrataan kiinnostavan testitilaston nollajakaumaa χ2(1) – jakaumaan. Jokainen sarake vastaa eri testitilastoa: (1) g-tilasto lasketaan käyttäen todellisia genotyyppejä (True); (2)g-tilasto lasketaan käyttäen nimettyjä genotyyppejä suodattamatta (Call NF); (3) G-statistic lasketaan käyttäen kutsutaan genotyypit suodatus (Call F); ja (4) todennäköisyys suhde testi statistic tuntematon Vähäinen alleeli (LRT). Jos oletetaan 500 tapausta ja 500 kontrollia, nollahypoteesin mukaan simuloitiin 5 000 kohteen joukko, jonka MAF oli 5% ja sekvensointisyvyys 2× (ylempi paneeli) ja 5× (alempi paneeli). ”Inflaatiokerroin” on esitetty kunkin luvun vasemmassa yläkulmassa.

loimme myös vastaanottimen toimintaominaisuuskäyrät (Roc) kullekin eri assosiaatiotestille. Nämä käyrät osoittavat testin tehon eri väärillä positiivisilla nopeuksilla. Koska joidenkin testitilastojen jakaumat eivät noudata nollahypoteesin mukaista χ2(1) – jakaumaa, saimme tasapuolisen vertailun tekemiseksi kullekin väärälle positiiviselle kertoimelle empiirisen nollajakauman perusteella kriittisen arvon. Teho lasketaan murto-osana simuloiduista tautialueista, joiden tilasto ylittää kriittisen arvon. Kaiken kaikkiaan LRT toimii paremmin kuin g-testi, joka perustuu jompaankumpaan genotyyppikutsumenetelmään (kuva 5). Esimerkiksi 5%: n väärillä positiivisilla ja 5×: n sekvensointisyvyydellä teho taudin lokuksen havaitsemiseen, jonka MAF on 1% ja suhteellinen riski (RR) 2, on 51% LRT: llä, mutta teho laskee 33%: iin käyttämällä kutsumenetelmää ilman suodatusta ja 34%: iin käyttämällä kutsumenetelmää suodatuksella. Erityisesti matalasyvyydessä suodatettaviksi kutsutuille genotyypeille tehty g-testi toimii erittäin huonosti (kuvan 5 suurin sarake vasemmalla). Jos vertaamme LRT: n tehoa Armitagen trenditestiin, jossa käytetään genotyyppejä, huomaamme, että LRT: llä on myös suurempi teho kuin Armitagen trenditestillä (Lisätiedosto 3). Tämä viittaa siihen, että jos joku haluaa käyttää kutsutaan genotyyppejä, suodatus niiden perusteella puhelun luottamus voi johtaa tehon menetykseen.

kuva 5
kuva5

Receiver operating characteristic (ROC) curves of four tests of association. Neljän tilaston määritelmä on kuvan 4 kuvatekstissä. Olettaen, että 500 tapausta ja 500 kontrollia, 20 000 toimipaikkaa simuloitiin null-järjestelmässä ja vaihtoehdossa 2×, 5× ja 10× (kolme saraketta) yksittäisissä sekvensointisyvyyksissä. Jokaisella väärällä positiivisella korolla (X-akseli) vastaava kriittinen arvo laskettiin empiirisen nollajakauman avulla. Todellinen positiivinen nopeus (Teho; y-akseli) saatiin laskemalla kausaalisten paikkojen osuus testitilastoilla, jotka ylittävät kriittisen arvon.

soveltaminen todellisiin tietoihin

analysoimme 200 eksomea kontrolleista taudin assosiaatiotutkimusta varten, jotka on sekvensoitu Illumina-tekniikalla yksilökohtaisella syvyydellä 8× . Käytimme ”SOAPsnp” – ohjelman tuottamaa genotyyppiä päättelyymme. Lisätietoja, Katso menetelmät.

selvitimme ensin MAF: n estimaattien paikkansapitävyyttä seuraavan sukupolven sekvensointidatasta 50 SNPs: lle vertaamalla niitä Sequenomin genotyyppidatan estimoituihin Maf: iin. Sekä ML-menetelmää käyttävät estimaatit että suodatuksetta käytettävä genotyyppikutsumenetelmä korreloivat suuresti Sequenom-genotyyppitietojen estimaattien kanssa (toisin sanoen pieni standardoitu ero kahden estimaatin välillä kuvassa 6). Genotyyppikutsuihin suodatuksella perustuvat arviot osoittavat kuitenkin heikkoa vastaavuutta Sequenomin genotyyppidatan perusteella arvioituihin taajuuksiin, varsinkin kun sekvensointisyvyys on alhainen. Mielenkiintoista on, että on olemassa yksi SNP, jossa estimoitu Maf resequencing-aineistosta on hyvin erilainen kuin sequenom-genotyypin tiedoista saatu estimaatti, vaikka sekvensointisyvyys on hyvin korkea (14×). Sequenomin genotyyppitietojen perusteella arvioitu MAF-arvo on 22, 5%, mutta ML-menetelmällä arvioituna 17, 2%. Yksilöllinen tarkastelu osoittaa, että monilla yksilöillä sekvensointitietojen perusteella hyvin tuettu genotyyppi eroaa Sekvenomien genotyypeistä. Kun otetaan huomioon, että tässä SNP: ssä on paljon lukemia näillä henkilöillä ja että havaituilla lukupohjilla on korkeat arvosanat (>Q20), on todennäköistä, että ero johtuu Sequenomin genotyypitysvirheistä. Huomaa, että on olemassa pari SNP: tä, joissa genotyypin kutsuvan lähestymistavan estimoidut MAF: T ilman suodatusta näyttävät vastaavan paremmin Sequenom-genotyypin estimoituja Maf: iä kuin ML-lähestymistavan estimaatit. Esimerkiksi yhdellä SNP: llä arvioitu MAF on Sequenomin genotyyppitietojen perusteella 25,7%, 25.9% genotyyppikutsumenetelmästä ilman suodatusta ja 27,2% ML-menetelmästä. Yksilötarkastus kuitenkin paljastaa, että on olemassa muutamia yksilöitä, joiden genotyyppi sekvensointitietojen perusteella eroaa Sequenomin genotyypistä. Näissä tapauksissa virheet kutsutaan genotyypit peruutetaan, jolloin ulkonäkö paremmin vastaavuus Sequenom genotyyppi tiedot. Siksi näiden SNPs, on vaikea sanoa, mikä menetelmä toimii parhaiten.

kuva 6
kuva6

estimaatit alleelien frekvenssistä laskettu 200 yksilöltä käyttäen seuraavan sukupolven sekvensointitietoja vs. Sekvenomin genotyyppitietoja. Kussakin kohdassa alleelien frekvenssin estimointiin käytettiin vain yksilöitä, joilla on sekä Sekvenomigenotyyppitietoja että sekvensointitietoja. Sekvensointitietoja varten saatiin MAF: n estimaatit kolmella eri menetelmällä (Call NF; Call F; ja ML). Kunkin estimaatin standardoitu ero laskettiin seuraavasti: , missä ja ovat sekvensointitietojen estimoidut MAF: T ja Sekvenomien genotyyppitietojen estimoidut MAF: T, ja n on estimoinnissa käytetty yksilöiden lukumäärä. Kukin paikka luokitellaan yhteen neljästä altaasta keskimääräisen yksittäisen peittosyvyyden (värin) perusteella: alle 4×, yli 4× mutta alle 8×, yli 8× mutta alle 16× ja yli 16×.

seuraavaksi tarkastelimme Maf: ien jakaumaa laskettuna käyttäen useita lähestymistapoja eri sekvensointisyvyyksiin seuraavan sukupolven exome-sekvensointidatastamme (Kuva 7). Hylkäsimme SNP: t, joiden arvioitu MAF <2%, koska näitä hyvin matalataajuisia SNP: itä on vaikea erottaa tämän aineiston sekvensointivirheistä. Poistimme edelleen kohtia, joissa lukupohjien laatupisteissä oli merkittävä ero (p-arvo alle 10-5 ranking-sum-testillä ) molli-ja duurialleelien välillä. Nämä alueet ovat todennäköisesti keinotekoisia SNP: itä, jotka voivat johtua virheellisestä kartoituksesta tai kokeellisen menettelyn aikana käyttöön otetuista tuntemattomista harhoista. Sitten luokittelimme jokaisen paikan lokeroihin peittävyyden perusteella. SNP: iden lukumäärä kussakin roskakorissa on esitetty taulukossa 1. Kun keskisyvyys on alle 9×, genotyyppikutsumenetelmiin perustuvien arvioitujen Maf-arvojen jakaumat poikkeavat suuresti ML-menetelmään perustuvasta. Erityisesti genotyyppikutsumenetelmät aiheuttavat suuren ylitaajuuden matalataajuisten SNP: iden (MAF 2-4%) osalta. Tämä kuvio kuvastaa sitä, mitä simulaatiotutkimuksissamme nähtiin (kuva 3). Myös genotyypin kutsumenetelmissä alleelin taajuusjakauma muuttuu dramaattisesti sekvensointisyvyyden muuttuessa. Siksi, kuten aiemmin mainittiin, kun syvyys ei ole kovin korkea, genotyypin kutsumenetelmät sisältävät todennäköisesti paljon vääriä SNP, jotka ovat sekvensointivirheitä. Nämä virheet ilmenevät matalataajuisen SNP: n ylimääränä taajuusjakaumassa. ML-menetelmään perustuva jakauma on vakaampi syvyyksissä, mutta matalataajuisen alleelitaajuuden SNPs: n osuus syvyydessä on edelleen pienempi kuin 9×matalataajuisen SNP: n osuus suuremmissa syvyyksissä.

Kuva 7
kuva7

vähäisen alleelin frekvenssin jakautuminen arvioituna 200 sekvensoidun yksilön eksomeista. Pienehkön alleelin frekvenssi arvioitiin jokaisella havaintopaikalla neljällä eri menetelmällä: (1) ML-menetelmä, jossa on tuntematon mollialleeli, (2) ML-menetelmä, jossa on tunnettu tai kiinteä mollialleeli, (3) genotyyppien kutsuminen suodattamatta (Call NF) ja (4) genotyyppien kutsuminen suodattamalla (Call F). Jokainen kohde on luokiteltu roskakoriin peittävyyden perusteella. Lisäksi kussakin histogrammissa ei oteta huomioon alueita, joiden arvioitu MAF-arvo on alle 2%. Tässä analyysissä Käytettyjen kansallisten SNP: iden lukumäärä on taulukossa 1.

Taulukko 1 SNP: iden lukumäärä siten, että arvioitu Maf-arvo on yli 2% käyttäen tiettyä menetelmää (rivi) kunkin bin (sarakkeen) sisällä määriteltynä keskimääräisellä sekvenssisyvyydellä eri yksilöiden välillä.

lopulta käytimme tätä eksome-resequencing-tietoa simuloidaksemme tapauskontrolli-assosiaatiotutkimusta. Tutkiaksemme assosiaatiotestin tilastojen jakautumista nollahypoteesin mukaisesti, määritimme sattumanvaraisesti 100 henkilöä tapausryhmään ja loput 100 kontrolliryhmään. Kaikkien kromosomi 2: n SNP: iden osalta, joiden Maf-estimaatit > 2% (perustuen tuntemattomaan vähäisen alleelin ML-menetelmään), testasimme alleelien frekvenssieroja tapausten ja kontrollien välillä laskemalla g-statistiikan käyttäen genotyyppejä sekä suodattamalla että suodattamatta sekä LRT-statistiikkaa. Kuvassa 8 esitetään QQ-käyrät, joissa verrataan testitilastojen jakaumia standardijakaumaan χ2 (1). Kuten simulaatiotutkimuksissa on havaittu, genotyyppejä suodattamatta laskettaessa laskettu g-statistin nollajakauma poikkeaa huomattavasti χ2 (1) – jakaumasta. LRT-tilaston nollajakauma noudattaa kuitenkin tarkasti χ2 (1) – jakaumaa. Inflaatiokerroin on 1,01, mikä tarkoittaa, että LRT statistic toimii hyvin, kun sitä sovelletaan reaalitietoihin.

Kuva 8
kuva8

QQ-käyrät, joissa verrataan alleelien yleisyyseroja koskevia assosiaatiokoetilastoja 100 tapauksen ja 100 kontrollin välillä χ2(1) – jakaumaan. Fenotyypit satunnaistettiin eksomen resequencing-aineiston individuaaleihin siten, että tapauksia on 100 ja kontrolleja 100. Jokaisesta kohteesta laskettiin kolme tilastoa: g-statistiikka käyttäen kutsutaan genotyyppejä ilman suodatus (Call NF), G-static käyttäen kutsutaan genotyyppejä suodatus (Call F), ja LRT statistic. Jotta vältettäisiin väärien SNP: iden esiintyminen, hylätään alueet, joiden MAF: n ML: n estimaatti on alle 2%. Näyttötarkoituksessa näytetään tulokset kromosomissa 2 olevista paikoista. Huomaa, että inflaatiokerroin on esitetty kunkin QQ-tontin vasemmassa yläkulmassa.

Related Posts

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *