nici ss-dsDNA mogą być skutecznie tworzone w jednym zbiorniku
ponieważ przyszłe bazy danych DNA składałyby się z ponad 1015 różnych stron17, najpierw zapytaliśmy, czy ss-dsDNA można tworzyć w sposób o wysokiej przepustowości i równoległy. Zamówiliśmy 160 nukleotydowych (nt) jednoniciowych DNAs (ssDNA)o wspólnej sekwencji 23 nt, która była wstawiona 20 nt od końca 3′ (rys. 1c i 2a, tabela uzupełniająca 1). Ta 23-nt Sekwencja zawierała promotor polimerazy RNA T7, ale była również używana do wiązania wspólnego startera w celu wypełnienia i przekształcenia ssDNA w ss-dsDNA. Osiągnięto to przez kilka cykli wyżarzania termicznego i przedłużania polimerazy DNA (np. cykle PCR, ale tylko z jednym podkładem). W wyniku tego powstały nici ss-dsDNA o zwisie 20 nt (rys. 2A, Góra). Zoptymalizowaliśmy stosunek ssDNA do startera, liczbę cykli oraz inne parametry środowiskowe (rys. 2A, dodatkowe rys. 1) aby zmaksymalizować ilość ssDNA przekonwertowanego na ss-dsDNA. Okazało się, że zmniejszenie ssDNA:stosunek startera past 1: 10 doprowadził do stopniowej zmiany ilości ss-dsDNA wytwarzanego w ilości określonej za pomocą elektroforezy żelowej (Fig. 1B). Zdecydowaliśmy się na ostrożną pracę ze współczynnikiem 1:20 ssDNA: primer. W tym stosunku okazało się, że tylko 4 cykle PCR były potrzebne do przekształcenia ssDNA w ss-dsDNA, jak widać przez przesunięcie w górę żelu DNA (rys. 2A).
następnie przetestowaliśmy, czy ta metoda może być użyta do utworzenia 3 odrębnych ss-dsDNA w reakcjach jednokomorowych i czy każdy ss-dsDNA może być specyficznie oddzielony od mieszaniny (rys. 2b). Połączyliśmy ze sobą 3 oddzielne ssdna „A”, „B” I „C”, dodaliśmy wspólny podkład i wykonaliśmy 4 cykle PCR, aby utworzyć ss-dsDNA (tutaj określane jako pliki składające się tylko z jednej unikalnej nici). Następnie do wiązania każdego ss-dsDNA (tj., każdy plik, a, B I C ma odrębną sekwencję zwisającą lub adres Pliku) i oddzielił je od mieszaniny za pomocą kulek magnetycznych funkcjonalizowanych streptawidyną. Każdy z tych oligos był w stanie wyraźnie oddzielić tylko odpowiedni plik bez dwóch pozostałych (rys. 2B, dno, Korektor. (1)). Co ważne, ten etap separacji można przeprowadzić w temperaturze pokojowej (25 °c) przy minimalnym wzroście obserwowanym przy wyższych temperaturach wyżarzania oligo wynoszących 35 lub 45 °C (dodatkowe rys. 2, Eq. (2)). Temperatura pokojowa i izotermiczny charakter tego etapu jest przydatny w praktycznych systemach przechowywania DNA i do zmniejszania degradacji DNA.
podczas gdy 20 nt jest standardową długością startera PCR, zapytaliśmy, czy wydajność separacji może być modulowana przez różne długości zwisów i temperatury separacji. Zaprojektowaliśmy 5 ss-dsDNA z nawisami 5-25 nt (dodatkowe rys. 3). Następnie oddzieliliśmy każdą nić za pomocą jej specyficznego oligo związanego z biotyną w temperaturze 15-55 °C. Zaobserwowaliśmy zwiększoną skuteczność separacji dla dłuższych oligos (20mers i 25mers) oraz w niższych temperaturach (15 °C i 25 °C, dodatkowe rys. 3b). Było to zgodne z analizą termodynamiczną przy użyciu kalkulatora właściwości oligonukleotydów (Fig. 3C, metody, Eqs. (3)–(5))28,29,30.
DORIS zwiększa granice gęstości i pojemności
jedną z potencjalnych zalet separacji plików w temperaturze pokojowej jest to, że dwuniciowe części SS-dsDNA pozostają razem wyżarzone i mogą blokować niepożądane wiązania oligo z podobnymi sekwencjami w regionach ładunku danych. Obszar ładunku danych to większość sekwencji w środku ss-dsDNA, która zawiera zapisane informacje. Aby przetestować tę hipotezę, stworzyliśmy dwa ss-dsDNA (rys. 2c). Jeden ss-dsDNA miał zwis, który wiązał oligo a 'i wewnętrzne miejsce wiązania oligo B’. Eksperymentalnie zweryfikowaliśmy, że używając DORIS, tylko oligo a 'ale nie oligo B’może oddzielić pasmo. Dla porównania, systemy oparte na PCR topią dsDNA w każdym cyklu, umożliwiając starterom Wiązanie poza celem w ładunku danych. Zgodnie z oczekiwaniami, gdy stosowano PCR, zarówno oligo a’, jak i oligo B’ wiązały się, a oligo B ’ wytwarzało niepożądane produkty okrojone. Druga nitka, którą testowaliśmy, miała wewnętrzne miejsce wiązania i zwis, które oba były komplementarne do oligo C’. Pokazaliśmy, że korzystając z DORIS, oligo C ’ dało tylko pasmo pełnej długości. W przeciwieństwie do tego, przy użyciu PCR, oligo C ’ tworzyło zarówno pełne, jak i obcięte pasma.
następnie zapytaliśmy, jakie konsekwencje ma ta blokująca właściwość DORIS dla przechowywania informacji opartych na DNA. Wraz ze wzrostem rozmiaru baz danych zwiększa się intuicyjnie prawdopodobieństwo wystąpienia sekwencji identycznych z sekwencjami adresowymi (zarówno nawisami dla DORIS, jak i miejscami starterowymi dla PCR) pojawiających się w regionach ładunku danych. W przypadku DORIS nie jest to problemem, ponieważ oligos są blokowane w powiązaniu regionów ładunku danych dsDNA. Jednak w PCR startery wiążą te obszary ładunku danych, więc poprzednie podejścia opracowały algorytmy kodowania, które ograniczają nakładanie się sekwencji starterów (adresów) z dowolną identyczną lub podobną sekwencją w ładunkach danych 11,12, zazwyczaj unikając odległości Hamming w ~<6. To z natury zmniejsza gęstość, z jaką bazy danych mogą być kodowane ze względu na ograniczenia przestrzeni sekwencji ładunku danych, lub ich pojemność ze względu na zmniejszenie liczby unikalnych sekwencji Starter, które mogą być używane. Gęstość to ilość przechowywanych informacji na nt (Eq. (6)) i zmniejsza się, ponieważ ograniczenia kodowania ograniczają, jakie sekwencje mogą być używane w obszarze ładunku (przestrzeń sekwencji niższej różnorodności), podczas gdy pojemność jest całkowitą ilością informacji, które mogą być przechowywane w systemie (Eq. (7)) i zależy od liczby dostępnych adresów, ponieważ określają one liczbę plików, które mogą być przechowywane.
aby ilościowo pokazać te relacje, obecnie trudno jest analitycznie rozwiązać lub kompleksowo obliczyć liczbę dostępnych adresów, które nie oddziałują z regionem ładunku danych, nawet w przypadku umiarkowanych rozmiarów baz danych. Dlatego przeprowadziliśmy symulacje Monte Carlo, aby oszacować całkowitą liczbę adresów i całkowitą wydajność. Sekwencje adresowe były (PCR) lub nie były (DORIS) wykluczone, jeśli pojawiły się w regionach ładunku danych bazy danych zawierającej 109 odrębnych nici DNA (Fig. 2D, metody). Aby uprościć analizę, użyliśmy obliczeniowych słów kodowych do zakodowania obszaru ładunku danych. Każde słowo kodowe jest odrębnym ciągiem nt i zawiera jeden bajt (B) informacji cyfrowej. Obszar ładunku danych może być bardziej gęsty poprzez zmniejszenie rozmiaru słów kodowych, aby więcej słów kodowych (i bajtów) zmieściło się w każdym łańcuchu o stałej długości. Kompromis polega na tym, że mniejsze słowa kodowe zwiększą również różnorodność sekwencji nici (liczbę możliwych odrębnych sekwencji na długość nici) ze względu na więcej połączeń słowo kodowe-słowo kodowe na pasmo. Zwiększa to prawdopodobieństwo pojawienia się podobnych sekwencji w ładunku, które są sprzeczne z sekwencjami adresowymi.
symulacja oceniła, czy sekwencje adresowe byłyby sprzeczne z sekwencjami w ładunku. Jednak w przypadku DORIS, nawet jeśli sekwencje adresowe były sprzeczne z ładunkiem, te adresy były dozwolone. Symulacja wykazała zatem, że wraz ze wzrostem gęstości informacji o ładunku poprzez zmniejszanie długości słowa kodowego liczba dostępnych adresów nie uległa zmianie w przypadku DORIS, ponieważ nie wprowadzono żadnych ograniczeń dotyczących adresów innych niż to, że nie wolno im być podobnymi do innych adresów (rys. 2d, lewy, różowy). Również zgodnie z oczekiwaniami, wraz ze wzrostem gęstości informacji o ładunku, pojemność bazy danych wzrosła monotonicznie, ponieważ liczba adresów plików pozostała taka sama, jak całkowita liczba nici na plik (rys. 2D, prawy, różowy). Natomiast w przypadku PCR wykluczono adresy pojawiające się w dowolnej sekwencji ładunku danych; w rezultacie zwiększenie gęstości informacji o ładunku początkowo przyniosło niewielką korzyść dla ogólnej pojemności (rys. 2d, prawo, niebieski), ale ostatecznie doprowadziło do katastrofalnego spadku pojemności, ponieważ liczba adresów, które nie kolidowały z żadną sekwencją ładunku, szybko spadła do zera (rys. 2d, lewy, niebieski). Podczas gdy możliwe jest zwiększenie liczby odrębnych wątków na adres (tj., informacje na plik) aby zrekompensować utratę adresów, spowodowałoby to, że pliki byłyby zbyt duże, aby można je było zsekwencjonować i zdekodować w jednym sekwencjonowaniu17. Ważne jest również, aby pamiętać, że nasze symulacje były oparte na bardzo konserwatywnych gęstościach słów kodowych i rozmiarze bazy danych tylko 109 nici DNA, podczas gdy przyszłe systemy przechowywania prawdopodobnie przekroczą 1012 nici lub więcej. Wraz ze wzrostem gęstości bazy danych i przestrzeni sekwencji DNA, liczba adresów dostępnych dla systemów opartych na PCR spadnie jeszcze bardziej, podczas gdy DORIS pozostanie nienaruszona. Dlatego teoretyczna poprawa pojemności i gęstości może być o rząd wielkości większa niż to, co szacuje się w naszych symulacjach. Co więcej, DORIS znacznie upraszcza projektowanie adresów; projektowanie zestawów adresów ortogonalnych dla systemów opartych na PCR, które nie wchodzą w interakcje z sekwencjami ładunku danych, szybko stanie się obliczeniowo trudne przy dużych rozmiarach baz danych. Podsumowując, baza danych składająca się z ss-dsDNA może być efektywnie tworzona w reakcjach jednorazowych, a zwisy ssDNA ułatwiają metodę separacji opartą na PCR, która zwiększa specyficzność adresów i zwiększa teoretyczną gęstość i pojemność bazy danych.
DORIS umożliwia powtarzalny dostęp do plików
kluczowym wymogiem, ale głównym wyzwaniem dla inżynierii właściwości dynamicznych w systemach pamięci masowej jest możliwość ponownego użycia systemu. W tej pracy czerpaliśmy inspirację z naturalnych systemów biologicznych, w których informacje są wielokrotnie uzyskiwane z jednej stałej kopii genomowego DNA poprzez proces transkrypcji. Jak pokazano na Fig. 3A, dynamiczny dostęp w DORIS zaczyna się od fizycznego oddzielenia interesującego pliku (ss-dsDNA dzielące ten sam adres zwisający) za pomocą oligos i streptawidyny połączonej z biotyną, transkrypcji in vitro (IVT) DNA do RNA31, powrotu pliku do bazy danych i odwrotnej transkrypcji RNA do cDNA w celu dalszej analizy lub sekwencjonowania.