dynamiczne i skalowalne przechowywanie informacji w oparciu o DNA

nici ss-dsDNA mogą być skutecznie tworzone w jednym zbiorniku

ponieważ przyszłe bazy danych DNA składałyby się z ponad 1015 różnych stron17, najpierw zapytaliśmy, czy ss-dsDNA można tworzyć w sposób o wysokiej przepustowości i równoległy. Zamówiliśmy 160 nukleotydowych (nt) jednoniciowych DNAs (ssDNA)o wspólnej sekwencji 23 nt, która była wstawiona 20 nt od końca 3′ (rys. 1c i 2a, tabela uzupełniająca 1). Ta 23-nt Sekwencja zawierała promotor polimerazy RNA T7, ale była również używana do wiązania wspólnego startera w celu wypełnienia i przekształcenia ssDNA w ss-dsDNA. Osiągnięto to przez kilka cykli wyżarzania termicznego i przedłużania polimerazy DNA (np. cykle PCR, ale tylko z jednym podkładem). W wyniku tego powstały nici ss-dsDNA o zwisie 20 nt (rys. 2A, Góra). Zoptymalizowaliśmy stosunek ssDNA do startera, liczbę cykli oraz inne parametry środowiskowe (rys. 2A, dodatkowe rys. 1) aby zmaksymalizować ilość ssDNA przekonwertowanego na ss-dsDNA. Okazało się, że zmniejszenie ssDNA:stosunek startera past 1: 10 doprowadził do stopniowej zmiany ilości ss-dsDNA wytwarzanego w ilości określonej za pomocą elektroforezy żelowej (Fig. 1B). Zdecydowaliśmy się na ostrożną pracę ze współczynnikiem 1:20 ssDNA: primer. W tym stosunku okazało się, że tylko 4 cykle PCR były potrzebne do przekształcenia ssDNA w ss-dsDNA, jak widać przez przesunięcie w górę żelu DNA (rys. 2A).

rys. 2: DORIS eliminuje niespecyficzne interakcje i zwiększa granice gęstości i pojemności.
figure2

pojedyncze rozszerzenie podkładu tworzy ss-dsDNA. (Dół) 4 cykle PCR wygenerowały optymalną ilość ss-dsDNA 160 nt przy jednoczesnym zminimalizowaniu nadmiernej produkcji ssDNA. (Po prawej) żel DNA wykazał znaczny wzrost generacji ss-dsDNA poniżej 1: 10 stosunku ssDNA do startera. B poszczególne pliki mogą być oddzielone od bazy danych z trzema plikami utworzonymi przez jedno-pot pojedyncze rozszerzenie primer. Każdy plik był związany za pomocą odpowiedniego oligo związanego z biotyną, a następnie separacji opartej na PCR za pomocą funkcjonalizowanych kulek magnetycznych. Specyficzność separacji plików to procent oddzielonego DNA, który jest albo plikiem A, B, albo C, mierzony za pomocą qPCR. C (po lewej) PCR, ale nie DORIS, pozwoli oligom wiązać wewnętrzne miejsca docelowe i wytwarzać niepożądane produkty. (Środkowy) żele DNA i (Prawy) ich ilościowo oznaczona fluorescencja (niebieski dla PCR, różowy dla DORIS) wykazały, że dostęp oparty na PCR skutkował skróconymi i niepożądanymi amplikonami, podczas gdy DORIS uzyskiwał dostęp tylko do pożądanych nici. d (Po Lewej) symulacje Monte Carlo oszacowały liczbę znalezionych oligos, które nie będą ze sobą współdziałać lub ładunek danych. 400 000 oligo przebadano na podstawie różnych kodowań gęstości. Oś x reprezentuje gęstość (Eq. (4)), który jest odwrotnie związany z długością słów kodowych używanych do przechowywania dyskretnych jednobajtowych wartości danych. Oceniliśmy długości słów kodowych od 12 do 4. W przypadku DORIS gęstość kodowania nie została naruszona, ponieważ nie musi chronić przed niepożądanym wiązaniem między oligos a ładunkami danych. (Po prawej) w przypadku PCR liczba oligos, które nie będą wiązać ładunku danych, spada wraz ze wzrostem gęstości nici, co oznacza, że można przechowywać mniej plików, co prowadzi do mniejszej ogólnej pojemności systemu. W przypadku DORIS dostępność oligos jest niezależna od kodowania, a zatem pojemność wzrasta wraz z gęstszym kodowaniem. Wykreślone wartości reprezentują średnią arytmetyczną, a paski błędów reprezentują s.d. trzech replikowanych separacji plików lub symulacji. Obrazy żelowe są reprezentatywne dla trzech niezależnych eksperymentów mierzonych za pomocą RT-QPCR. Dane źródłowe są dostarczane jako plik danych źródłowych. * Możliwości mogą być ograniczone przez ograniczenia syntezy i sekwencjonowania nieuwzględnione tutaj.

następnie przetestowaliśmy, czy ta metoda może być użyta do utworzenia 3 odrębnych ss-dsDNA w reakcjach jednokomorowych i czy każdy ss-dsDNA może być specyficznie oddzielony od mieszaniny (rys. 2b). Połączyliśmy ze sobą 3 oddzielne ssdna „A”, „B” I „C”, dodaliśmy wspólny podkład i wykonaliśmy 4 cykle PCR, aby utworzyć ss-dsDNA (tutaj określane jako pliki składające się tylko z jednej unikalnej nici). Następnie do wiązania każdego ss-dsDNA (tj., każdy plik, a, B I C ma odrębną sekwencję zwisającą lub adres Pliku) i oddzielił je od mieszaniny za pomocą kulek magnetycznych funkcjonalizowanych streptawidyną. Każdy z tych oligos był w stanie wyraźnie oddzielić tylko odpowiedni plik bez dwóch pozostałych (rys. 2B, dno, Korektor. (1)). Co ważne, ten etap separacji można przeprowadzić w temperaturze pokojowej (25 °c) przy minimalnym wzroście obserwowanym przy wyższych temperaturach wyżarzania oligo wynoszących 35 lub 45 °C (dodatkowe rys. 2, Eq. (2)). Temperatura pokojowa i izotermiczny charakter tego etapu jest przydatny w praktycznych systemach przechowywania DNA i do zmniejszania degradacji DNA.

podczas gdy 20 nt jest standardową długością startera PCR, zapytaliśmy, czy wydajność separacji może być modulowana przez różne długości zwisów i temperatury separacji. Zaprojektowaliśmy 5 ss-dsDNA z nawisami 5-25 nt (dodatkowe rys. 3). Następnie oddzieliliśmy każdą nić za pomocą jej specyficznego oligo związanego z biotyną w temperaturze 15-55 °C. Zaobserwowaliśmy zwiększoną skuteczność separacji dla dłuższych oligos (20mers i 25mers) oraz w niższych temperaturach (15 °C i 25 °C, dodatkowe rys. 3b). Było to zgodne z analizą termodynamiczną przy użyciu kalkulatora właściwości oligonukleotydów (Fig. 3C, metody, Eqs. (3)–(5))28,29,30.

DORIS zwiększa granice gęstości i pojemności

jedną z potencjalnych zalet separacji plików w temperaturze pokojowej jest to, że dwuniciowe części SS-dsDNA pozostają razem wyżarzone i mogą blokować niepożądane wiązania oligo z podobnymi sekwencjami w regionach ładunku danych. Obszar ładunku danych to większość sekwencji w środku ss-dsDNA, która zawiera zapisane informacje. Aby przetestować tę hipotezę, stworzyliśmy dwa ss-dsDNA (rys. 2c). Jeden ss-dsDNA miał zwis, który wiązał oligo a 'i wewnętrzne miejsce wiązania oligo B’. Eksperymentalnie zweryfikowaliśmy, że używając DORIS, tylko oligo a 'ale nie oligo B’może oddzielić pasmo. Dla porównania, systemy oparte na PCR topią dsDNA w każdym cyklu, umożliwiając starterom Wiązanie poza celem w ładunku danych. Zgodnie z oczekiwaniami, gdy stosowano PCR, zarówno oligo a’, jak i oligo B’ wiązały się, a oligo B ’ wytwarzało niepożądane produkty okrojone. Druga nitka, którą testowaliśmy, miała wewnętrzne miejsce wiązania i zwis, które oba były komplementarne do oligo C’. Pokazaliśmy, że korzystając z DORIS, oligo C ’ dało tylko pasmo pełnej długości. W przeciwieństwie do tego, przy użyciu PCR, oligo C ’ tworzyło zarówno pełne, jak i obcięte pasma.

następnie zapytaliśmy, jakie konsekwencje ma ta blokująca właściwość DORIS dla przechowywania informacji opartych na DNA. Wraz ze wzrostem rozmiaru baz danych zwiększa się intuicyjnie prawdopodobieństwo wystąpienia sekwencji identycznych z sekwencjami adresowymi (zarówno nawisami dla DORIS, jak i miejscami starterowymi dla PCR) pojawiających się w regionach ładunku danych. W przypadku DORIS nie jest to problemem, ponieważ oligos są blokowane w powiązaniu regionów ładunku danych dsDNA. Jednak w PCR startery wiążą te obszary ładunku danych, więc poprzednie podejścia opracowały algorytmy kodowania, które ograniczają nakładanie się sekwencji starterów (adresów) z dowolną identyczną lub podobną sekwencją w ładunkach danych 11,12, zazwyczaj unikając odległości Hamming w ~<6. To z natury zmniejsza gęstość, z jaką bazy danych mogą być kodowane ze względu na ograniczenia przestrzeni sekwencji ładunku danych, lub ich pojemność ze względu na zmniejszenie liczby unikalnych sekwencji Starter, które mogą być używane. Gęstość to ilość przechowywanych informacji na nt (Eq. (6)) i zmniejsza się, ponieważ ograniczenia kodowania ograniczają, jakie sekwencje mogą być używane w obszarze ładunku (przestrzeń sekwencji niższej różnorodności), podczas gdy pojemność jest całkowitą ilością informacji, które mogą być przechowywane w systemie (Eq. (7)) i zależy od liczby dostępnych adresów, ponieważ określają one liczbę plików, które mogą być przechowywane.

aby ilościowo pokazać te relacje, obecnie trudno jest analitycznie rozwiązać lub kompleksowo obliczyć liczbę dostępnych adresów, które nie oddziałują z regionem ładunku danych, nawet w przypadku umiarkowanych rozmiarów baz danych. Dlatego przeprowadziliśmy symulacje Monte Carlo, aby oszacować całkowitą liczbę adresów i całkowitą wydajność. Sekwencje adresowe były (PCR) lub nie były (DORIS) wykluczone, jeśli pojawiły się w regionach ładunku danych bazy danych zawierającej 109 odrębnych nici DNA (Fig. 2D, metody). Aby uprościć analizę, użyliśmy obliczeniowych słów kodowych do zakodowania obszaru ładunku danych. Każde słowo kodowe jest odrębnym ciągiem nt i zawiera jeden bajt (B) informacji cyfrowej. Obszar ładunku danych może być bardziej gęsty poprzez zmniejszenie rozmiaru słów kodowych, aby więcej słów kodowych (i bajtów) zmieściło się w każdym łańcuchu o stałej długości. Kompromis polega na tym, że mniejsze słowa kodowe zwiększą również różnorodność sekwencji nici (liczbę możliwych odrębnych sekwencji na długość nici) ze względu na więcej połączeń słowo kodowe-słowo kodowe na pasmo. Zwiększa to prawdopodobieństwo pojawienia się podobnych sekwencji w ładunku, które są sprzeczne z sekwencjami adresowymi.

symulacja oceniła, czy sekwencje adresowe byłyby sprzeczne z sekwencjami w ładunku. Jednak w przypadku DORIS, nawet jeśli sekwencje adresowe były sprzeczne z ładunkiem, te adresy były dozwolone. Symulacja wykazała zatem, że wraz ze wzrostem gęstości informacji o ładunku poprzez zmniejszanie długości słowa kodowego liczba dostępnych adresów nie uległa zmianie w przypadku DORIS, ponieważ nie wprowadzono żadnych ograniczeń dotyczących adresów innych niż to, że nie wolno im być podobnymi do innych adresów (rys. 2d, lewy, różowy). Również zgodnie z oczekiwaniami, wraz ze wzrostem gęstości informacji o ładunku, pojemność bazy danych wzrosła monotonicznie, ponieważ liczba adresów plików pozostała taka sama, jak całkowita liczba nici na plik (rys. 2D, prawy, różowy). Natomiast w przypadku PCR wykluczono adresy pojawiające się w dowolnej sekwencji ładunku danych; w rezultacie zwiększenie gęstości informacji o ładunku początkowo przyniosło niewielką korzyść dla ogólnej pojemności (rys. 2d, prawo, niebieski), ale ostatecznie doprowadziło do katastrofalnego spadku pojemności, ponieważ liczba adresów, które nie kolidowały z żadną sekwencją ładunku, szybko spadła do zera (rys. 2d, lewy, niebieski). Podczas gdy możliwe jest zwiększenie liczby odrębnych wątków na adres (tj., informacje na plik) aby zrekompensować utratę adresów, spowodowałoby to, że pliki byłyby zbyt duże, aby można je było zsekwencjonować i zdekodować w jednym sekwencjonowaniu17. Ważne jest również, aby pamiętać, że nasze symulacje były oparte na bardzo konserwatywnych gęstościach słów kodowych i rozmiarze bazy danych tylko 109 nici DNA, podczas gdy przyszłe systemy przechowywania prawdopodobnie przekroczą 1012 nici lub więcej. Wraz ze wzrostem gęstości bazy danych i przestrzeni sekwencji DNA, liczba adresów dostępnych dla systemów opartych na PCR spadnie jeszcze bardziej, podczas gdy DORIS pozostanie nienaruszona. Dlatego teoretyczna poprawa pojemności i gęstości może być o rząd wielkości większa niż to, co szacuje się w naszych symulacjach. Co więcej, DORIS znacznie upraszcza projektowanie adresów; projektowanie zestawów adresów ortogonalnych dla systemów opartych na PCR, które nie wchodzą w interakcje z sekwencjami ładunku danych, szybko stanie się obliczeniowo trudne przy dużych rozmiarach baz danych. Podsumowując, baza danych składająca się z ss-dsDNA może być efektywnie tworzona w reakcjach jednorazowych, a zwisy ssDNA ułatwiają metodę separacji opartą na PCR, która zwiększa specyficzność adresów i zwiększa teoretyczną gęstość i pojemność bazy danych.

DORIS umożliwia powtarzalny dostęp do plików

kluczowym wymogiem, ale głównym wyzwaniem dla inżynierii właściwości dynamicznych w systemach pamięci masowej jest możliwość ponownego użycia systemu. W tej pracy czerpaliśmy inspirację z naturalnych systemów biologicznych, w których informacje są wielokrotnie uzyskiwane z jednej stałej kopii genomowego DNA poprzez proces transkrypcji. Jak pokazano na Fig. 3A, dynamiczny dostęp w DORIS zaczyna się od fizycznego oddzielenia interesującego pliku (ss-dsDNA dzielące ten sam adres zwisający) za pomocą oligos i streptawidyny połączonej z biotyną, transkrypcji in vitro (IVT) DNA do RNA31, powrotu pliku do bazy danych i odwrotnej transkrypcji RNA do cDNA w celu dalszej analizy lub sekwencjonowania.

rys. 3: DORIS naśladuje naturalną transkrypcję, aby wielokrotnie uzyskać dostęp do informacji.
figure3

plik a został oddzielony przy użyciu separacji magnetycznej nie opartej na PCR, podczas gdy baza danych została odzyskana (zachowana baza danych) (N = 3 dla każdego warunku). Transkrypcję in vitro opartą na T7 przeprowadzono bezpośrednio na pliku unieruchomionym koralikiem przez okres do 48 godzin w celu wytworzenia RNA. Odwrotna transkrypcja przekształciła RNA w komplementarne DNA (cDNA), podczas gdy unieruchomiony plik a został uwolniony z powrotem do bazy danych (plik zachowany) (N = 3 dla każdego warunku). b Ilość zachowanej bazy danych (jasne cieniowanie) i zachowanego pliku (ciemne cieniowanie) po uzyskaniu dostępu do pliku a przez oligo a’ została zmierzona za pomocą qPCR i wykreślona jako procent pierwotnej ilości KAŻDEGO pliku w bazie danych. Specyfika dostępu do plików jest widoczna przez brak plików B I C w zachowanym pliku. Obecność polimerazy RNA T7 (rnap) nie wpływała na zachowanie pliku A. plik c A był wielokrotnie odwiedzany 5 razy. Ilość pliku A, B I C w bazie danych została zmierzona przez qPCR i wykreślona jako ilość KAŻDEGO pliku w bazie danych po każdym uruchomieniu (n = 3 dla każdego warunku), znormalizowana do pierwotnej ilości KAŻDEGO pliku przed pierwszym dostępem. Wartości reprezentują średnią arytmetyczną. Paski błędów to s. d., n = Liczba dostępu do replikowanych plików. Dane źródłowe są dostarczane jako plik danych źródłowych.

zaimplementowaliśmy ten system z trzema odrębnymi ss-dsDNA (A, B I C) reprezentującymi trzy-plikową bazę danych i uzyskaliśmy dostęp do pliku a z biotynylowanym oligo A’ (rys. 3b & 4). Następnie zmierzyliśmy ilości i kompozycje ” zachowanej bazy danych „(jasne cieniowanie) i” zachowanego pliku ” (ciemne cieniowanie) za pomocą qPCR (Eq. (8)). Zachowana baza danych miała wyższe poziomy plików B I C w porównaniu do a, ponieważ część pliku a została usunięta W separacji magnetycznej. Zachowany plik zawierał głównie plik a, z minimalnym B lub C. najlepsza całkowita ilość odzyskanego pliku a z zachowanej bazy danych i zachowanego pliku wynosiła około 90% tego, co pierwotnie znajdowało się w bazie danych. Wysoki wskaźnik retencji pliku a sugerował, że plik może być ponownie uzyskiwany wiele razy. Przetestowaliśmy to przez wielokrotne uzyskiwanie dostępu do pliku a pięć razy i zmierzyliśmy ilości i kompozycje pliku A, B I C w bazie danych po każdym dostępie (rys. 3c & 4c). Zgodnie z oczekiwaniami, ogólne ilości plików B I C utrzymywały się na względnie stabilnym poziomie w bazie danych. Około 50% pliku a pozostało po pięciu dostępach. Praktyczne konsekwencje dla systemów przechowywania DNA jest to, że tylko 2 kopie każdej odrębnej sekwencji są potrzebne w początkowej bazie danych dla każdego 5 razy jest dostępny (ignorując skutki dystrybucji nici). Jest to ulepszenie w stosunku do dostępu do plików opartych na PCR, gdzie pobierane i wzmacniane są małe alikwoty bazy danych. W takim przypadku dla każdego dostępu potrzebna jest jedna kopia każdej odrębnej sekwencji; co więcej, w przeciwieństwie do DORIS, wszystkie inne pliki bazy danych będą podobnie zmniejszone w obfitości, nawet jeśli nie były dostępne. W ten sposób DORIS może wydłużyć żywotność baz danych DNA i umożliwić częstszy dostęp do tej samej całkowitej masy zsyntetyzowanego DNA.

następnie zapytaliśmy, w jaki sposób reakcja IVT może wpłynąć na stabilność bazy danych, ponieważ jest przeprowadzana w podwyższonej temperaturze 37 °C i może degradować ss-dsDNA. Podczas gdy zachowana baza danych nie jest narażona na IVT, dostęp do pliku jest, a ilość ss-dsDNA zatrzymana może mieć wpływ na długość IVT. Rzeczywiście, podczas gdy sama obecność polimerazy RNA nie miała wpływu na zachowany plik, długość czasu IVT zmniejszyła ilość zachowanego pliku (Fig. 3b & 4a). Co ciekawe, ponowne ogrzanie zatrzymanego pliku w temperaturze 45 °C i umożliwienie mu schłodzenia do temperatury pokojowej poprawiło szybkość retencji, ale dłuższe czasy IVT nadal zmniejszały ogólną retencję pliku (dodatkowe rys. 4B). Sugeruje to, że niektóre straty wynikają z nici pliku odłączających się od oligos lub RNA związanych z koralikami konkurujących z ss-dsDNA, podczas gdy niektóre straty wynikają z degradacji DNA. W celu potwierdzenia, że ss-dsDNA nie zanieczyszczał cDNA generowanego z transkrybowanego RNA, cDNA otrzymano tylko wtedy, gdy polimeraza RNA została włączona do reakcji IVT (Fig. 4d).

następnie skupiliśmy się na ocenie jakości i efektywności IVT. Aby sprawdzić, czy polimeraza RNA może tworzyć niepożądane, obcięte lub wydłużone transkrypty, zamówiliśmy serię sześciu ssdna o długości od 110 do 180 nt (rys. 4a & 5). Zostały one przekształcone w ss-dsDNA, transkrybowane w RNA, a następnie odwrotne transkrybowane i amplifikowane w dsDNA. Wyraźne jednolite pasma były widoczne dla ss-dsDNA, RNA i dsDNA. Zwiększenie czasu IVT zwiększyło wydajność RNA dla wszystkich szablonów (Fig. 4b), chociaż zaledwie 2 h wystarczyło do uzyskania jasnych pasm RNA (Fig. 4c), a czas IVT nie wpływał na długość generowanego RNA. Podsumowując, Informacje mogą być wielokrotnie dostępne z ss-dsDNA przez separację oligo i IVT.

rys. 4: transkrypcja oparta na T7 generuje produkty o jednorodnych rozmiarach.
figure4

sześć oligos ssDNA o różnych długościach zostało zaprojektowanych do generowania sześciu szablonów ss-dsDNA o długościach odpowiednio 180 bp, 160 bp, 140 bp, 130 bp, 120 bp i 110 bp. Każdy ss-dsDNA składał się z konsensusowej sekwencji odwrotnego wiązania startera, sekwencji wiązania startera T7, sekwencji wiązania startera do przodu i sekwencji ładunku o różnych długościach. Te szablony ss-dsDNA były transkrybowane in vitro przez 8 godzin, a następnie RT-PCR. Rozmiary produktu badano elektroforezą w żelu agarozowym. b przebieg IVT do 48 h (N = 3 reakcje IVT dla każdego stanu). Ilość RNA i cząsteczek wzorcowych DNA mierzono Nanodropem i wykreślano jako ich stosunek. C elektroforeza żelowa produktów RNA i dsDNA po 2-48 h IVT, a następnie RT-PCR. Wykreślone wartości reprezentują średnią arytmetyczną, a paski błędów reprezentują s.d. trzech niezależnych reakcji IVT. Obrazy żelowe są reprezentatywne dla trzech niezależnych eksperymentów mierzonych za pomocą RT-QPCR. Dane źródłowe są dostarczane jako plik danych źródłowych.

transkrypcja może być dostrojona przez sekwencję promotora

ostatnie prace nad przechowywaniem informacji molekularnych wykazały przydatność przechowywania dodatkowych informacji w składzie mieszanin różnych cząsteczek, w tym DNA32,33. Ponieważ informacje dostępne przez DORIS opierają się na polimerazie RNA T7 i istnieją dowody na to, że warianty promotora T7 mogą wpływać na wydajność transkrypcji34,35,36,37,38, zapytaliśmy, czy wydajność transkrypcji opartej na T7 może być modulowana przez specyficzne sekwencje nukleotydowe wokół regionu promotora T7, utrzymując jednocześnie sam promotor na stałym poziomie, aby umożliwić generowanie ss-dsDNA w jednej puli (Fig. 2a, b). Aby kompleksowo odpowiedzieć na to pytanie, zaprojektowaliśmy i zamówiliśmy 1088 różnych nici 160 nt jako basen oligo. Pierwsze 1024 nici zawierały wszystkie możliwe 5-nt sekwencje wariantowe przed sekwencją promotora (Nnnnn-promotor, N to każdy z czterech nukleotydów), a ostatnie 64 sekwencje były wszystkimi 3-nt sekwencjami wariantowymi przed sekwencją promotora (promotor-NNN, Fig. 5A). Ponieważ nukleotydy NNNNN znajdowały się w zwisie ssDNA, zapytaliśmy również, czy ten region będący jednoniciowym lub dwuniciowym miał jakikolwiek wpływ na względną wydajność transkrypcji. Najpierw stworzyliśmy ss – dsDNA przez primer extension i dsDNA przez PCR puli ssdna oligo. Zarówno bazy ss – dsDNA, jak i dsDNA były przetwarzane za pomocą IVT w temperaturze 37 °C przez 8 godzin, a następnie RT-PCR i sekwencjonowanie nowej generacji. Krótkie kody kreskowe zostały zaprojektowane w regionie ładunku, aby zidentyfikować wariant promotora, z którego pochodzi każdy sekwencyjny transkrypt.

rys. Wydajność transkrypcji 5: T7 może być kontrolowana przez otaczające sekwencje.
figure5

a Pula oligo, która miała 1088 odrębnych sekwencji, została zaprojektowana do generowania szablonów ss-dsDNA. Pierwsze 1024 sekwencje zawierały wszystkie możliwe kombinacje nukleotydów przed sekwencją promotora (NNNNN-T7, gdzie N jest jednym z czterech nukleotydów DNA), podczas gdy ostatnie 64 sekwencje posiadały wszystkie możliwe kombinacje nukleotydów przed sekwencją promotora (T7-NNN). Każda sekwencja zawierała Kod kreskowy do identyfikacji sekwencji wariantowych nukleotydów. Szablony ss-dsDNA były przetwarzane za pomocą IVT przez 8 godzin, a następnie RT-PCR i sekwencjonowanie nowej generacji (N = 3 dla każdego warunku). B efektywność transkrypcji obu projektów sekwencji zostały wykreślone przez normalizację liczby odczytów każdej transkrybowanej nici do jej obfitości w oryginalnej bibliotece. Dane zostały zorganizowane od najniższej do najwyższej znormalizowanej obfitości dla obu projektów. C sekwencje były dalej podzielone na cztery kwartyle w oparciu o znormalizowaną obfitość transkrypcji i analizowane przez narzędzie WebLogo. d znormalizowana obfitość każdej sekwencji była zorganizowana przez procent a / T. Wartości P między każdą grupą zostały obliczone przy użyciu jednokierunkowego ANOVA z post-hoc Tukey-Kramera i wymienione tutaj dla istotności statystycznej. NNNNN-T7: wartości p mniejsze niż 0,01 dla porównań między 0% -100%, 80% -100% i 20% -80%; wartości p mniejsze niż 0,001 dla porównań między 20%-100%, 40%-80%, 40%-100%, 60%-80% i 60%-100%; T7-NNN, wartości p mniejsze niż 0,05 dla porównania między 33% -100%, 0% -100% i 0% -66%. e błąd procentowy dla każdej pozycji sekwencji DNA dla oryginalnej zsyntetyzowanej bazy danych (po lewej) i transkrybowanej bazy danych (po prawej). Współczynnik błędu obliczono dzieląc liczbę błędów danego typu występujących w pozycji nukleotydu przez całkowitą liczbę odczytów dla tej sekwencji (metoda uzupełniająca). Wykreślone wartości reprezentują średnią arytmetyczną, a paski błędów reprezentują s. d. trzech niezależnych próbek IVT-RT-PCR-NGS. Dane źródłowe są dostarczane jako plik danych źródłowych.

obfitość każdej odrębnej sekwencji transkrypcji została znormalizowana do jej obfitości w oryginalnym ss-dsDNA (rys. 5b) lub dsDNA (dodatkowe rys. 6A) baza danych (Eq. (9)). Uzyskano szeroki i prawie ciągły zakres znormalizowanych obfitości, co wskazuje, że takie podejście można wykorzystać do tworzenia złożonych mieszanek dna w przyszłości. Aby ustalić, czy mogą istnieć proste zasady projektowania opisujące efektywność promotora, podzieliliśmy sekwencje 1088 na kwartyle w oparciu o obfitość transkrypcji i zaimportowaliśmy dane do narzędzia WebLogo tool39. Odkryliśmy, że G lub a w 5. pozycji bezpośrednio przed promotorem T7 i C lub T w 3. pozycji bezpośrednio za promotorem T7 na ogół powodowały największe obficie RNA (Fig. 5c). Segmentacja danych według zawartości a/t wykazała nieznaczną preferencję dla ~50% zawartości a/T przed promotorem T7 i preferencję dla ogólnej niskiej zawartości a / t za promotorem T7 (Fig. 5d).

ten eksperyment sekwencjonowania nowej generacji zapewnił również pewność, że DORIS jest skalowalna do dużych i złożonych pul ss-dsDNA. Ponadto, analiza błędów odczytów sekwencjonowania nie wykazała systematycznych delecji, obcięcia lub podstawienia, a ogólny poziom błędu był znacznie niższy od poziomu już obecnego w syntezie DNA (Fig. 5e).

DORIS umożliwia operacje na plikach w pamięci masowej

wiele nieorganicznych systemów przechowywania informacji, a nawet archiwów chłodni, zachowuje możliwość dynamicznej manipulacji plikami. Podobne możliwości w systemach opartych na DNA znacznie zwiększyłyby ich wartość i konkurencyjność. zwisy ssDNA były wcześniej używane do wykonywania obliczeń w kontekście przełączników toehold40,41,42,43, dlatego też postawiliśmy hipotezę, że mogą być używane do implementacji operacji na plikach w pamięci masowej. Jako dowód Zasady wdrożyliśmy Blokowanie, odblokowywanie, zmienianie nazw i usuwanie plików i pokazaliśmy, że te operacje można wykonać w temperaturze pokojowej (rys. 6).

rys. 6: Toeholds włącza operacje na plikach w pamięci masowej.
figure6

a (Top) Schemat blokowania i odblokowywania operacji na plikach w pamięci masowej. (Dół) próby dostępu do pliku a przez DORIS BEZ zamka (No-Lock), z zamkiem, ale bez klucza (No-Key), lub z zamkiem i kluczem dodanym w różnych temperaturach (pomarańczowy) (n = 3 dla każdego warunku). Zamek dodano w temperaturze 98 °C. klucz dodano w różnych temperaturach (pomarańczowy), a następnie ochłodzono do 14 °C (N = 3 dla każdego stanu). Oligo a ’ dodawano w różnych temperaturach dostępu 25, 35, 45 lub 75 °C przez 2 minuty, po czym nastąpił spadek temperatury o 1 °C/min do 25 °C (N = 3 dla każdego stanu). Wydajność separacji to ilość odzyskanego pliku w stosunku do jego pierwotnej ilości, mierzona za pomocą qPCR. B (Góra) schemat operacji zmiany nazwy i usunięcia. Plik a został zmodyfikowany przez zmianę nazwy lub usunięcie oligos. (Dół) zakończenie każdej operacji było testowane przez pomiar, ile pliku zostało oddzielonych przez poszczególne oligo: A’, B 'lub C’. Wydajność separacji to ilość oddzielonego pliku w stosunku do jego pierwotnej ilości w bazie danych, mierzona za pomocą qPCR. No Mod (Brak modyfikacji/operacji pliku). Wykreślone wartości reprezentują średnią arytmetyczną, a paski błędów reprezentują s. d. trzech niezależnych replikowanych operacji/separacji plików. Dane źródłowe są dostarczane jako plik danych źródłowych.

zaczęliśmy od bazy danych z trzema plikami i przetestowaliśmy zdolność oligo a’ powiązanego z biotyną do wiązania i oddzielania pliku A w zakresie temperatur od 25 do 75 °C (rys. 6A, dno, bez zamka). Około 50% plików a zostało pomyślnie oddzielonych od bazy danych. Aby zablokować plik a, oddzieliliśmy plik a od bazy danych z trzema plikami i zmieszaliśmy w długą 50-nt ssDNA (lock), która miała 20-nt sekwencję komplementarną do zwisu ssDNA pliku A. z zamkiem na miejscu, oligo a’ nie był już w stanie oddzielić pliku, z wyjątkiem wyższych temperatur powyżej 45 °C (rys. 6A, dno, brak klucza), prawdopodobnie dlatego, że zamek został stopiony z zwisu, co pozwoliło oligo a’ konkurować o Związanie zwisu. Aby odblokować plik, dodaliśmy klucz, który był 50 nt ssDNA w pełni komplementarny do zamka. Przetestowaliśmy różne temperatury odblokowywania i okazało się, że klucz był w stanie wyjąć Zamek w temperaturze pokojowej z taką samą wydajnością, jak w wyższych temperaturach. Jest to prawdopodobnie spowodowane długim 30 nt toehold prezentowanym przez zamek, umożliwiając kluczowi rozpakowanie zamka z pliku A. zoptymalizowaliśmy również względne proporcje molowe (plik a: lock: key: oligo a’ = 1: 10: 10: 15) aby zminimalizować separację poza celem i zapewnić prawidłowe blokowanie. Zauważyliśmy, że temperatura, w której dodano zamek, wpływała na wierność procesu blokowania. W temperaturze 98 °C proces blokowania działał dobrze. Po dodaniu zamka w temperaturze 25 °C nastąpiło nieszczelne oddzielenie, nawet jeśli nie dodano klucza (dodatkowe rys. 7). Może to być spowodowane strukturami wtórnymi uniemożliwiającymi hybrydyzację niektórych pasm a z zamkami w niskich temperaturach. Na szczęście blokowanie w temperaturze 45 °C miało rozsądną wydajność, unikając w ten sposób konieczności podniesienia systemu do 98 °C. W kontekście przyszłego systemu przechowywania DNA pliki mogły być najpierw oddzielone, a następnie zablokowane w podwyższonej temperaturze, a następnie zwrócone do bazy danych, unikając w ten sposób ekspozycji całej bazy danych na podwyższone temperatury. W przeciwnym razie cały proces mógłby być przeprowadzony w temperaturze pokojowej.

zaimplementowaliśmy również zmianę nazwy i usuwanie plików. Aby zmienić nazwę pliku z adresem a na adres B, zmieszaliśmy plik a z 40-nt ssDNA, który wiąże się z A, A wynikowym nawisem jest adres B(rys. 6b). Dodaliśmy wszystkie komponenty w podobnych proporcjach do procesu blokowania (plik: renaming oligo: accessing oligo = 1: 10: 15), a zmiana nazwy oligo została dodana w temperaturze 45 °C. Następnie przetestowaliśmy, ile pasm plików każdy oligo A’, B 'lub C’ może się oddzielić i stwierdziliśmy, że proces zmiany nazwy całkowicie zablokował oligos a’ lub C’ od oddzielenia pliku (rys. 6B, dno). Tylko oligo B ’ był w stanie oddzielić plik sugerując, że prawie wszystkie wątki zostały pomyślnie przemianowane z A na B. Podobnie, pomyślnie przemianowaliśmy plik a na C. Opierając się na zdolności oligos do zmiany nazw plików z prawie 100% ukończeniem, postawiliśmy hipotezę i rzeczywiście odkryliśmy, że krótki 20 nt oligo w pełni uzupełniający się do a może być użyty do całkowitego zablokowania zwisu pliku A i zasadniczo usunięcia go z bazy danych (rys. 6B, dno). Plik można również po prostu wyodrębnić z bazy danych, aby go również usunąć. Jednak ta alternatywna forma usuwania opartego na blokowaniu sugeruje jeden ze sposobów zapewnienia, że wszelkie resztki plików, które nie zostały całkowicie wyodrębnione, nie będą w przyszłości dostępne w sposób gwałtowny.

Related Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *