the minor allele is the less frequent allele in the population at a variable site. Najpierw opisujemy dwa główne podejścia do oszacowania mniejszej częstotliwości alleli (MAF)w określonym miejscu w genomie. Pierwsze podejście polega na wnioskowaniu poszczególnych genotypów i traktowaniu tych genotypów jako całkowicie dokładnych przy szacowaniu MAF. Następnie badamy wydajność struktury prawdopodobieństwa, która bezpośrednio bierze pod uwagę niepewność przy przypisywaniu genotypów. W trakcie naszej pracy Zakładamy, że wszystkie strony segregujące są bialleliczne.
jednym ze sposobów oszacowania MAF na podstawie danych sekwencjonowania nowej generacji jest najpierw wywołanie genotypu dla każdej osoby za pomocą danych sekwencjonowania, a następnie użycie tych genotypów tak, jakby były one prawdziwe. Było to podejście tradycyjnie stosowane dla danych genotypowych i danych sekwencjonowania Sangera. Nie jest jasne, jak dobrze będzie on działać, gdy stosowane do danych sekwencjonowania nowej generacji.
podejście maksymalne prawdopodobieństwo może używać wnioskować genotyp dla każdego osobnika od następnej generacji sekwencjonowanie dane. W każdym miejscu j, dla każdego osobnika i, prawdopodobieństwo dla każdego z trzech możliwych genotypów (zakładając, że znamy mniejszy allel) jest podane jako:
(1)
gdzie D i,j to obserwowane dane dotyczące sekwencjonowania u osobnika i w miejscu j, g I , j ∈ {0, 1, 2} to liczba drobnych alleli zawartych w genotypie każdego osobnika, a I kontrola odpowiednio błędów sekwencjonowania i odczytu właściwości bazowych. Obserwowane dane sekwencjonowania dla każdej osoby mogą być traktowane jako wyrównanie odczytów w miejscu j, biorąc pod uwagę wyniki jakości odczytu. Jest to reprezentowane jako prawdopodobieństwo genotypu i znajduje się w pliku prawdopodobieństwa genotypu (GLF), który jest produkowany w wielu programach, które analizują sekwencjonowanie nowej generacji danych, takich jak SOAPsnp i MAQ .
aby przypisać genotyp konkretnej osobie, prawdopodobieństwo każdego z trzech możliwych genotypów można obliczyć dla danej osoby. Genotyp z największym prawdopodobieństwem można następnie przypisać. Jednak badacze często preferują bardziej rygorystyczne kryterium wywołania i nie przypisują genotypu jednostce, chyba że najbardziej prawdopodobny genotyp jest znacznie bardziej prawdopodobny niż drugi najbardziej prawdopodobny. Tutaj trzy możliwe genotypy są posortowane według ich prawdopodobieństwa: , gdzie g(k)odpowiada genotypowi z największym prawdopodobieństwem k. Z podanym progiem f można wywołać genotyp g(1), jeśli . W przeciwnym razie genotyp nie jest wywoływany, a genotyp jednostki jest uważany za brakujący. Wspólna wartość progowa F wynosi 1, co wskazuje, że najbardziej prawdopodobny genotyp jest co najmniej 10 razy bardziej prawdopodobny niż drugi najbardziej prawdopodobny. Zauważ, że tego typu filtrowanie może skutkować większym zaufaniem dla „wywołanego” genotypu, ale również skutkować większą liczbą brakujących danych.
zamiast szacowania MAF z nazwanych genotypów, metoda maksymalnego prawdopodobieństwa (ML) wprowadzona przez Kim i wsp. (patrz również Lynch dla podobnego podejścia) bezpośrednio szacuje MAF i bierze pod uwagę niepewność genotypu. W szczególności, biorąc pod uwagę niewielki allel, prawdopodobieństwo obserwacji danych sekwencji u każdego osobnika i uzyskuje się przez zsumowanie prawdopodobieństwa odpowiadającego wszystkim trzem możliwym genotypom.
przypuśćmy, że dostępne są trzy podobieństwa genotypów określone w równaniu 1. Stosując tę samą notację jak powyżej, niech D j I p j będą odpowiednio obserwowanymi danymi sekwencjonowania w miejscu j i odpowiadającym mu MAF. Prawdopodobieństwo genotypu biorąc pod uwagę, że mniejsza częstotliwość alleli może być obliczona przez założenie równowagi Hardy ’ ego-Weinberga (HWE). Następnie, zakładając niezależność wśród osobników, prawdopodobieństwo MAF w tym locus jest iloczynem wszystkich podobieństw obliczonych dla wszystkich N osobników:
(2)
oszacowanie ML p j można obliczyć poprzez bezpośrednie maksymalizowanie prawdopodobieństwa ograniczonej przestrzeni parametrów za pomocą Broydena-Fletchera-Goldfarba-metoda shanno (bfgs) lub za pomocą algorytmu expectation-maximization (em). Podczas korzystania z algorytmu EM, tylne oczekiwanie genotypu jest obliczane dla każdego osobnika, a średnia tych posterów jest wielokrotnie aktualizowana. Nasza implementacja BFGS była szybsza niż algorytm em. Na przykład, aby uzyskać szacunki z witryn 100,000, BFGS zajęło ~16 sekund, ale EM zajęło ~100 sekund. Jednak różnica w szybkości może być specyficzna dla implementacji. W naszym przypadku, dla obu metod, przestaliśmy aktualizować parametry, gdy wzrost prawdopodobieństwa był mniejszy niż 0.001.
Estymator maksymalnego prawdopodobieństwa z niepewnym drobnym allelem
w praktyce często jako drobny allel można stosować drugi najczęściej występujący nukleotyd u poszczególnych osobników. Jednak w przypadku rzadkich SNP (np. MAF < 1%) trudno jest określić, który allel jest mniejszym allelem, ponieważ wszystkie cztery nukleotydy mogą pojawić się w niektórych odczytach z powodu błędów sekwencjonowania. Aby poradzić sobie z tą sytuacją, opisujemy teraz ramy prawdopodobieństwa, które uwzględniają niepewność przy określaniu podrzędnego allelu.
Załóżmy, że dla strony j znamy główny allel M. Należy zauważyć, że decydowanie, który z dwóch wspólnych alleli może być głównym, nie jest ważne, ponieważ zajmujemy się głównie szacowaniem częstotliwości w rzadkich SNP. Ponadto, w przypadku alleli o częstotliwości pośredniej (około 50%), rozróżnienie między głównym i mniejszym allelem jest mniej ważne. Przydziel pozostałe trzy inne niż główne nukleotydy M1, M2 i m3. Prawdopodobieństwo wprowadzone w równaniu 2 zakłada stały allel główny M i stały allel podrzędny M. dlatego, aby umożliwić niepewność w oznaczeniu drobnego allelu, funkcję prawdopodobieństwa można modyfikować jako:
(3)
ponadto, zakładając, że którykolwiek z trzech możliwych drobnych alleli jest jednakowo prawdopodobny, otrzymujemy:
(4)
gdzie . Ponieważ może być bardzo mała w przypadku dużych zbiorów danych (np. dla wielu osób), przydatne jest obliczenie prawdopodobieństwa w skali logów. Uporządkuj trzy logarytmy warunkowe jako (l(1), l(2), l(3)), gdzie L(1) jest największym. Następnie,
g-test z użyciem nazwanych genotypów do mapowania asocjacji
w badaniach asocjacji SNP wykazujące znaczące różnice w częstości alleli między przypadkami i grupami kontrolnymi uważa się za związane z interesującym fenotypem. Mapowanie asocjacji może być wykonywane przy użyciu danych z badań sekwencjonowania nowej generacji. Najpierw omawiamy podejścia, które wymagają wywołania poszczególnych genotypów, a następnie wykonujemy test na asocjację przy użyciu nazwanych genotypów. W tym podejściu genotyp jest najpierw wywoływany dla każdej osoby. Genotypy mogą być filtrowane lub niefiltrowane. Zakładając niezależność między jednostkami i HWE, można zbudować tabelę awaryjną 2 × 2, licząc liczbę głównych i mniejszych alleli zarówno w przypadkach, jak i w kontrolach. Prowadzi to do dobrze znanego testu współczynnika prawdopodobieństwa dla niezależności, g-test:
(5)
gdzie O k,H jest częstotliwością obserwowaną w komórce, A E k,h jest częstotliwością oczekiwaną pod hipotezą zerową, w której częstotliwość alleli jest taka sama między przypadkami i kontrolami. Dobrze znany Test chi-kwadrat Pearsona jest asymptotycznie równoważny testowi G. Jeśli tabela jest generowana z prawdziwych genotypów, to statystyka G asymptotycznie podąża za rozkładem chi-kwadrat z 1 stopniem swobody (χ2 (1)). Jednak w naszych badaniach konstruujemy g-statystykę za pomocą” zwanych ” genotypów, więc HWE może nie trzymać z powodu nadmiernego i niedostatecznego wywoływania heterozygotów. Ponadto konstruowanie statystyki testu poprzez liczenie” zwanych „genotypów zamiast” obserwowanych ” genotypów prawdopodobnie wprowadza dodatkową zmienność. Dlatego teoria statystyczna może już nie być aktualna. Zauważ, że gdy genotyp nie jest wymagany dla określonej osoby, dane są uważane za brakujące i nie są uwzględnione w tabeli 2 × 2.
Test współczynnika prawdopodobieństwa uwzględniający niepewność w obserwowanych genotypach dla mapowania asocjacji
zamiast wywoływania genotypów, ramy prawdopodobieństwa pozwalają na niepewność w genotypach i testach w każdym miejscu j, czy częstotliwość alleli jest taka sama między przypadkami i kontrolami. Formalnie obliczamy prawdopodobieństwo hipotez H O: p j, 1 = p j, 2 (=p j ,0) I H A : p j ,1 ≠ P j, 2 ,gdzie P j ,1 i p j, 2 to odpowiednio mafy w przypadkach i kontroli.
zakładając, że znane są allele drobne (m) i główne (m), prawdopodobieństwo występowania częstości alleli drobnych można obliczyć w sposób opisany w równaniu 2, a statystykę badania współczynnika prawdopodobieństwa oblicza się jako:
(6)
gdzie I są obserwowanymi danymi odpowiednio dla przypadków i kontroli, oraz I są wartościami mle MAF odpowiednio w przypadkach i kontrolach.
Jeśli mały allel jest nieznany, prawdopodobieństwo pod hipotezą zerową jest obliczana jak w równaniu 3, a statystyka LRT jest modyfikowana jako:
(7)
gdzie D j jest obserwowanymi danymi dla obu przypadków i kontroli, a jest częstotliwością alleli w hipotezie zerowej. Inne zapisy są takie same jak w równaniu 6.
Szacowanie MAF w symulowanych danych
porównujemy szacunki częstości alleli na symulowanych danych za pomocą prawdziwych genotypów (True), zwanych genotypami bez filtrowania (Call NF), nazywanymi genotypami z filtrowaniem (f = 1; Call F) i metodą maksymalnego prawdopodobieństwa (ML). W przypadku rzadkich SNP Typ alleli drobnych często nie jest widoczny. Przy określaniu genotypów przyjmuje się, że drugim najczęściej występującym nukleotydem jest allel mniejszy. Metoda ML bezpośrednio uwzględnia niepewność przy określaniu allelu podrzędnego i o ile nie zaznaczono inaczej, przedstawiono wyniki przy użyciu metody nieznanego allelu podrzędnego (równanie 3). Należy zauważyć, że metoda nieznanego allelu podrzędnego ML działa podobnie do metody znanego allelu podrzędnego ML, ale ta pierwsza jest lepsza dla bardzo rzadkich SNP (dodatkowy plik 1).
najpierw oceniliśmy, jak dobrze różne podejścia były w stanie oszacować MAF U 200 osób w zakresie głębokości sekwencjonowania dla 1000 SNPs z prawdziwym MAF wynoszącym 5%. Rysunek 1 przedstawia boxploty rozkładów szacowanych Maf przy użyciu czterech różnych podejść. Zgodnie z oczekiwaniami, w przypadku danych o większym zasięgu, takich jak indywidualna głębokość 12×, wszystkie metody działają, jak również wtedy, gdy genotypy są znane z pewnością (prawdziwe). Jednak gdy głębokość maleje, szacunki MAF uzyskane przez pierwsze wywołanie genotypów stają się stronnicze. Na przykład mediana MAF oszacowana przy użyciu metody Call F wynosi 5,3% przy pokryciu 6× i 12,5% przy pokryciu 2×. Powodem odchylenia w górę jest to, że trudniej jest nazwać heterozygotami, ponieważ prawdziwe heterozygoty często wyglądają jak błędy sekwencjonowania. Dlatego więcej heterozygotów niż mniejszych homozygotów zwykle ma brakujące genotypy. Jednak ogólne odchylenie w szacunkach MAF od nazwanych genotypów nie zawsze jest w jednym kierunku (dane nie są pokazane). Co ciekawe, błąd wydaje się być gorszy dla metody Call F niż dla metody Call NF. Ten wzorzec może wydawać się intuicyjny, ponieważ filtrowanie wywołań genotypu wydaje się zmniejszać prawdopodobieństwo nazwania błędu sekwencjonowania heterozygotą. Jednak metoda wywołania F powoduje również większą ilość brakujących danych, ponieważ wiele homozygotów dla głównego allelu nie będzie wywoływanych z powodu błędów sekwencjonowania. Tak więc w tym przypadku nazywanie genotypów bez filtrowania wydaje się być lepszą strategią niż filtrowanie genotypów podczas próby oszacowania MAF.