L’allele minore è l’allele meno frequente nella popolazione in un sito variabile. Per prima cosa descriviamo due approcci principali per stimare la frequenza dell’allele minore (MAF) in un particolare sito nel genoma. Il primo approccio consiste nell’inferire i singoli genotipi e nel trattare quei genotipi inferiti come completamente accurati quando si stima la MAF. Esaminiamo quindi le prestazioni di un quadro di verosimiglianza che prende direttamente in considerazione l’incertezza nell’assegnazione dei genotipi. Durante il nostro lavoro, assumiamo che tutti i siti di segregazione siano biallelici.
Un modo per stimare la MAF dai dati di sequenziamento di prossima generazione è quello di chiamare prima un genotipo per ogni individuo usando i dati di sequenziamento, e quindi utilizzare quei genotipi come se fossero quelli veri. Questo è stato l’approccio tradizionalmente utilizzato per i dati di genotipo e Sanger sequenziamento dei dati. Non è chiaro quanto bene si esibirà quando applicato ai dati di sequenziamento di prossima generazione.
Un approccio di massima verosimiglianza può essere utilizzato per dedurre il genotipo per ogni individuo dai dati di sequenziamento di prossima generazione. In ogni sito j, per ogni individuo i, la probabilità per ciascuno dei tre genotipi possibili (supponendo che conosciamo l’allele minore) è data come:
(1)
D,i, j è la cosa osservata dati di sequenziamento in singolo sono al sito j, g , i, j ∈ {0, 1, 2} è il numero di alleli minori contenute nel genotipo di ogni individuo, e e controllo per errori di sequenziamento e di lettura di base di qualità, rispettivamente. I dati di sequenziamento osservati per ogni individuo possono essere pensati come l’allineamento delle letture al sito j tenendo conto dei punteggi di qualità di lettura. Questo è rappresentato come la probabilità di genotipo e si trova nel file di probabilità di genotipo (GLF) che viene prodotto in molti programmi che analizzano i dati di sequenziamento di nuova generazione, come SOAPsnp e MAQ .
Per assegnare un genotipo a un particolare individuo, la probabilità di ciascuno dei tre possibili genotipi può essere calcolata per l’individuo. Il genotipo con la più alta probabilità può quindi essere assegnato. Tuttavia, i ricercatori spesso preferiscono un criterio di chiamata più rigoroso e non assegneranno un genotipo a un individuo a meno che il genotipo più probabile non sia sostanzialmente più probabile del secondo più probabile. Qui i tre genotipi possibili sono ordinati in base alle loro probabilità: , dove g(k)corrisponde al genotipo con la k esima probabilità maggiore. Con una data soglia f, si può chiamare il genotipo g(1) se . Altrimenti, un genotipo non viene chiamato e il genotipo dell’individuo è considerato mancante. Un valore soglia comune di f è 1, indicando che il genotipo più probabile è almeno 10 volte più probabile del secondo più probabile. Si noti che questo tipo di filtraggio può comportare una maggiore confidenza per il genotipo “chiamato”, ma si traduce anche in più dati mancanti.
Stimatore di massima verosimiglianza della frequenza allele
Invece di stimare la MAF dai genotipi chiamati, un metodo di massima verosimiglianza (ML) introdotto da Kim et al. (vedi anche Lynch per un approccio simile) stima direttamente le MAF e tiene conto dell’incertezza del genotipo. In particolare, dato un allele minore, la probabilità di osservare i dati della sequenza ad ogni individuo i è ottenuta sommando le probabilità corrispondenti a tutti e tre i genotipi possibili.
Supponiamo che le tre probabilità di genotipo definite nell’equazione 1 siano disponibili. Usando la stessa notazione di cui sopra, sia DJ e pj i dati di sequenziamento osservati nel sito j e la corrispondente MAF, rispettivamente. La probabilità genotipo dato che minore frequenza allele può essere calcolata assumendo equilibrio Hardy-Weinberg (HWE). Quindi, supponendo che l’indipendenza tra gli individui, la probabilità che la MAF in questo locus è un prodotto di tutte le verosimiglianze calcolata su tutti gli N individui:
(2)
La stima ML di p j può essere calcolata direttamente massimizzare la probabilità per un limitato spazio di parametro utilizzando il Broyden-Fletcher-Goldfarb-Shanno (BFGS) il metodo o utilizzando il expectation-maximization (EM) algoritmo . Quando si utilizza l’algoritmo EM, l’aspettativa posteriore di un genotipo viene calcolata per ogni individuo e la media di quei posteriori viene ripetutamente aggiornata. La nostra implementazione di BFGS è stata più veloce dell’algoritmo EM. Ad esempio, per ottenere stime da 100.000 siti, BFGS ha richiesto ~16 secondi ma EM ha richiesto ~100 secondi. Tuttavia, la differenza di velocità può essere specifica per l’implementazione. Nel nostro caso, per entrambi i metodi, abbiamo interrotto l’aggiornamento dei parametri quando l’aumento della probabilità era inferiore a 0,001.
Stimatore di massima verosimiglianza con allele minore incerto
In pratica, spesso il secondo nucleotide più comune tra gli individui può essere usato come allele minore. Tuttavia, per SNP rari (ad esempio, MAF < 1%), è difficile determinare quale allele sia l’allele minore, poiché tutti e quattro i nucleotidi possono apparire in alcune letture a causa di errori di sequenziamento. Per affrontare questa situazione, descriviamo ora un quadro di verosimiglianza che tiene conto dell’incertezza nella determinazione dell’allele minore.
Supponiamo che per il sito j si conosca l’allele maggiore M. Si noti che decidere quale dei due alleli comuni è probabile che sia il maggiore non è importante poiché ci occupiamo principalmente di stimare le frequenze a SNP rari. Inoltre, per gli alleli con frequenze intermedie (circa il 50%), la distinzione tra allele maggiore e minore è meno importante. Assegnare gli altri tre nucleotidi non principali m1, m2 e m3. La probabilità introdotta nell’equazione 2 assume un allele maggiore fisso M e un allele minore fisso m. Pertanto, per consentire l’incertezza nella designazione dell’allele minore, la funzione di verosimiglianza può essere modificata come:
(3)
Inoltre, supponendo che uno dei tre possibili alleli minori è altrettanto probabile, otteniamo:
(4)
dove . Poiché può essere molto piccolo con grandi set di dati (ad esempio, con molti individui), è utile calcolare la probabilità nella scala di log. Ordina le tre probabilità di log condizionali come(l(1), l(2), l(3)), dove l (1) è il più grande. Quindi,
G-test usando i genotipi chiamati per la mappatura delle associazioni
Negli studi di associazione, gli SNP che mostrano differenze significative nella frequenza degli alleli tra casi e controlli sono associati al fenotipo di interesse. La mappatura delle associazioni può essere eseguita utilizzando i dati provenienti da studi di sequenziamento di nuova generazione. Per prima cosa discutiamo gli approcci che richiedono la chiamata di singoli genotipi e quindi eseguiamo un test per l’associazione utilizzando i genotipi chiamati. In questo approccio, viene prima chiamato un genotipo per ogni individuo. I genotipi possono essere filtrati o non filtrati. Assumendo l’indipendenza tra individui e HWE, una tabella di contingenza 2 × 2 può essere costruita contando il numero di alleli maggiori e minori sia nei casi che nei controlli. Questo porta al ben noto test del rapporto di verosimiglianza per l’indipendenza, il G-test:
(5)
dove O k,h è la frequenza osservata in una cella, e E k,h è la frequenza prevista nell’ipotesi in cui l’allele frequenza è la stessa tra casi e controlli. Il noto test chi-quadrato di Pearson è asintoticamente equivalente al test G. Se la tabella è generata da veri genotipi, allora la statistica G segue asintoticamente una distribuzione chi-quadrata con 1 grado di libertà (χ2(1)). Tuttavia, nei nostri studi, costruiamo la statistica G usando genotipi” chiamati”, quindi HWE potrebbe non reggere a causa di over – e under-calling di eterozigoti. Inoltre, la costruzione della statistica del test contando i genotipi” chiamati “anziché i genotipi “osservati” probabilmente introduce una maggiore variabilità. Pertanto, la teoria statistica potrebbe non essere più valida. Si noti che quando un genotipo non viene chiamato per un determinato individuo, i dati sono considerati mancanti e non sono inclusi nella tabella 2 × 2.
Test del rapporto di verosimiglianza contabilizzazione dell’incertezza nei genotipi osservati per la mappatura delle associazioni
Invece di chiamare i genotipi, il quadro di verosimiglianza consente l’incertezza nei genotipi e nei test in ogni sito j se la frequenza dell’allele è la stessa tra casi e controlli. Formalmente, calcoliamo la probabilità delle ipotesi H O : pj ,1 = pj ,2(= pj ,0) e H A : pj, 1 p pj, 2, dove pj ,1 e pj, 2 sono rispettivamente le MAF nei casi e nei controlli.
Supponendo che gli alleli minori (m) e maggiori (M) siano noti, la probabilità della frequenza dell’allele minore può essere calcolata come descritto nell’equazione 2 e la statistica del test del rapporto di verosimiglianza è calcolata come:
(6)
dove e sono i dati osservati per casi e controlli, rispettivamente, e e sono i MLEs di MAFs in casi e controlli, rispettivamente.
Se l’allele minore è sconosciuto, la probabilità sotto l’ipotesi nulla viene calcolata come nell’equazione 3 e la statistica LRT viene modificata come:
(7)
dove dj è il dato osservato per entrambi i casi e controlli, e è la frequenza allele sotto l’ipotesi nulla. Altre notazioni sono le stesse dell’equazione 6.
Stima della MAF nei dati simulati
Confrontiamo le stime della frequenza degli alleli sui dati simulati utilizzando genotipi veri (True), chiamati genotipi senza filtraggio (Chiamata NF), chiamati genotipi con filtraggio (f = 1; Chiamata F) e il metodo di massima verosimiglianza (ML). Per gli SNP rari, il tipo di allele minore spesso non è evidente. Quando si chiamano genotipi, si presume che il secondo nucleotide più comune sia l’allele minore. Il metodo ML incorpora direttamente l’incertezza nella determinazione dell’allele minore e, se non diversamente indicato, vengono mostrati i risultati utilizzando il metodo dell’allele minore sconosciuto (Equazione 3). Si noti che il metodo sconosciuto minor allele ML esegue in modo simile al metodo noto minor allele ML, ma il primo migliore per SNPS molto rari (file aggiuntivo 1).
Per prima cosa abbiamo valutato quanto bene i diversi approcci fossero in grado di stimare la MAF in 200 individui in una gamma di profondità di sequenziamento per 1.000 SNPS con una MAF vera del 5%. La figura 1 mostra i riquadri delle distribuzioni delle MAF stimate utilizzando i quattro diversi approcci. Come previsto, per dati di copertura più elevati, come una profondità individuale di 12×, tutti i metodi funzionano così come quando i genotipi sono noti con certezza (True). Tuttavia, quando la profondità diminuisce, le stime della MAF ottenute chiamando prima i genotipi diventano distorte. Ad esempio, la MAF mediana stimata utilizzando il metodo Call F è 5.3% a 6× copertura ed è 12.5% a 2×. La ragione del pregiudizio verso l’alto è che diventa più difficile chiamare eterozigoti poiché i veri eterozigoti spesso sembrano errori di sequenziamento. Pertanto, più eterozigoti rispetto agli omozigoti minori tendono ad avere genotipi mancanti. Tuttavia, il pregiudizio generale nelle stime MAF dai genotipi chiamati non è sempre in una direzione (dati non mostrati). È interessante notare che il bias sembra essere peggiore per il metodo Call F rispetto al metodo Call NF. Questo modello può sembrare contro-intuitivo poiché filtrare le chiamate genotipo sembrerebbe diminuire la probabilità di chiamare un errore di sequenziamento un eterozigote. Tuttavia, il metodo Call F si traduce anche in una maggiore quantità di dati mancanti poiché molti omozigoti per l’allele principale non verranno chiamati a causa di errori di sequenziamento. Pertanto, in questo caso, chiamare genotipi senza filtraggio sembra essere la strategia migliore rispetto al filtraggio dei genotipi quando si cerca di stimare la MAF.