firele ss-dsDNA pot fi create eficient într-o singură oală
deoarece bazele de date ADN viitoare ar fi compuse din peste 1015 fire distincte17, am întrebat mai întâi dacă SS-dsDNAs ar putea fi create într-un randament ridicat și într-o manieră paralelizată. Am comandat 160 nucleotide (nt) ADN monocatenar (ssDNA) cu o secvență comună de 23 nt care a fost inserată 20 nt de la capătul 3′ (Fig. 1C și 2a, tabelul suplimentar 1). Această secvență de 23 nt conținea promotorul ARN polimerazei T7, dar a fost, de asemenea, utilizat pentru a lega un primer comun pentru a completa și converti ssDNA într-un ss-dsDNA. Acest lucru a fost realizat prin mai multe cicluri de recoacere termică și extensie ADN polimerază (de exemplu, cicluri PCR, dar cu un singur primer). Acest lucru a dus la fire ss-dsDNA cu o consolă de 20 nt (Fig. 2a, sus). Am optimizat raportul dintre ssDNA și grund, numărul de cicluri, împreună cu alți parametri de mediu (Fig. 2a, suplimentar Fig. 1) pentru a maximiza cantitatea de ssDNA convertită în ss-dsDNA. Am constatat că scăderea ssDNA:raportul primer trecut de 1: 10 a condus la o schimbare treptată a cantității de SS-dsDNA produsă, cuantificată prin electroforeză în gel (Fig suplimentar. 1b). Am decis să lucrăm conservator cu un raport 1:20 ssDNA: primer. La acest raport am constatat că au fost necesare doar 4 cicluri PCR pentru a converti ssDNA în ss-dsDNA, așa cum se vede prin deplasarea ascendentă a gelului ADN (Fig. 2a).
în continuare, am testat dacă această metodă ar putea fi utilizată pentru a crea 3 SS-dsDNAs distincte în reacții cu un singur vas și dacă fiecare SS-dsDNA ar putea fi apoi separat în mod specific de amestec (Fig. 2b). Am amestecat 3 ssdna-uri distincte „A”, „B” și „C” împreună, am adăugat primerul comun și am efectuat 4 cicluri PCR pentru a crea SS-dsDNAs (denumite aici fișiere compuse dintr-un singur fir unic fiecare). Apoi am folosit OLIGOS ADN 20 nt legat de biotină pentru a lega fiecare SS-dsDNA (adică., fiecare fișier, A, B și C are o secvență distinctă sau o adresă de fișier) și le-a separat de amestec folosind margele magnetice funcționalizate cu streptavidină. Fiecare dintre acești oligos a reușit să separe în mod specific doar fișierul lor corespunzător fără celelalte două (Fig. 2b, jos, Eq. (1)). Important, această etapă de separare ar putea fi efectuată la temperatura camerei (25 C) cu câștiguri minime observate la temperaturi de recoacere oligo mai mari de 35 sau 45 C (suplimentar Fig. 2, EC. (2)). Temperatura camerei și natura izotermică a acestei etape sunt utile pentru sistemele practice de stocare a ADN-ului și pentru reducerea degradării ADN-ului.
în timp ce 20 nt este o lungime standard de grund PCR, am întrebat dacă eficiența de separare ar putea fi modulată prin diferite lungimi de consolă și temperaturi de separare. Am proiectat 5 SS-dsDNAs cu consolele 5-25 nt (suplimentar Fig. 3). Apoi am separat fiecare catenă folosind oligo – ul său specific legat de biotină la 15-55 C. S-a observat o eficiență sporită a separării la oligo-uri mai lungi (20mers și 25mers) și la temperaturi mai scăzute (15C și 25cc, suplimentar Fig. 3b). Acest lucru a fost în acord cu o analiză termodinamică utilizând calculatorul proprietăților Oligonucleotidelor (Fig suplimentar. 3c, metode, Eqs. (3)–(5))28,29,30.
DORIS crește densitatea și limitele de capacitate
un avantaj potențial al separărilor de fișiere la temperatura camerei este că porțiunile dublu catenare ale SS-dsDNAs rămân recoapte împreună și pot bloca legarea oligo nedorită la orice secvențe similare din regiunile de sarcină utilă a datelor. Regiunea sarcinii utile de date este majoritatea secvenței din mijlocul SS-dsDNAs care conține informațiile stocate. Pentru a testa această ipoteză, am creat două ss-dsDNAs (Fig. 2c). Un ss-dsDNA avea o consolă care lega oligo a ‘și un situs intern de legare pentru oligo B’. Am verificat experimental că prin utilizarea DORIS, numai oligo a ‘dar nu oligo B’ ar putea separa firul. Pentru comparație, sistemele bazate pe PCR topesc dsDNAs în fiecare ciclu, permițând primerilor să se lege în afara țintei în sarcina utilă a datelor. Așa cum era de așteptat, atunci când s-a utilizat PCR, atât oligo a’ cât și oligo B’ s-au legat, oligo B’ producând produse trunchiate nedorite. Cel de-al doilea fir pe care l-am testat a avut un situs intern de legare și o consolă care ambele au fost complementare oligo C’. Am arătat că folosind DORIS, oligo C ‘ a dat doar firul de lungime întreagă. În schimb, atunci când se utilizează PCR, oligo C’ a creat atât lungimea completă, cât și firele trunchiate.
am întrebat apoi ce implicații a avut această proprietate de blocare a lui DORIS pentru stocarea informațiilor bazate pe ADN. Pe măsură ce bazele de date cresc în dimensiune, intuitiv crește probabilitatea pentru secvențe identice cu secvențele de adrese (fie suprapuneri pentru DORIS, fie site-uri de grund pentru PCR) care apar în regiunile de sarcină utilă a datelor. Cu DORIS, aceasta nu este o problemă, deoarece oligo-urile sunt blocate de la legarea regiunilor de sarcină utilă a datelor dsDNA. Cu toate acestea, în PCR, primerii leagă aceste regiuni de sarcină utilă de date,astfel încât abordările anterioare au dezvoltat algoritmi de codificare care restricționează secvențele de grund (adrese) să se suprapună cu orice secvență identică sau similară din sarcinile utile de date11, 12, evitând de obicei distanțele Hamming în ~<6. Acest lucru reduce în mod inerent fie densitatea cu care bazele de date pot fi codificate din cauza restricțiilor privind Spațiul secvenței de sarcină utilă a datelor, fie capacitatea acestora datorită reducerii numărului de secvențe unice de grund care pot fi utilizate. Densitatea este cantitatea de informații stocate pe nt (Eq. (6)), și scade pe măsură ce restricțiile de codificare sunt plasate limitând ce secvențe pot fi utilizate în regiunea sarcinii utile (spațiu de secvență de diversitate mai mic), în timp ce capacitatea este cantitatea totală de informații care pot fi stocate într-un sistem (Eq. (7)) și depinde de numărul de adrese disponibile, deoarece acestea dictează numărul de fișiere care pot fi stocate.
pentru a arăta aceste relații cantitativ, este în prezent imposibil de rezolvat analitic pentru sau comprehensiv calcula numărul de adrese disponibile care nu interacționează cu regiunea de sarcină utilă de date, chiar și pentru baze de date de dimensiuni moderate. Prin urmare, am efectuat simulări Monte Carlo pentru a estima numărul total de adrese și capacitățile totale realizabile. Secvențele de adrese au fost (PCR) sau nu au fost (DORIS) excluse dacă au apărut în regiunile de sarcină utilă a datelor dintr-o bază de date cu 109 catene ADN distincte (Fig. 2D, metode). Pentru a simplifica analiza, am folosit cuvinte de cod computaționale pentru a codifica regiunea de încărcare utilă a datelor. Fiecare cuvânt de cod este o secvență nt distinctă și conține un octet (B) de informații digitale. Regiunea sarcinii utile de date poate fi mai densă prin reducerea dimensiunii cuvintelor de cod, astfel încât mai multe cuvinte de cod (și octeți) să se încadreze în fiecare fir de lungime fixă. Compromisul este că cuvintele de cod mai mici vor crește, de asemenea, diversitatea secvențelor firelor (numărul de secvențe distincte posibile pe lungimea firului) datorită mai multor joncțiuni cuvânt de cod-cuvânt de cod pe fir. Acest lucru crește șansa ca secvențe similare să apară în sarcina utilă care intră în conflict cu secvențele de adrese.
simularea a evaluat dacă secvențele de adrese ar intra în conflict cu orice secvență din sarcina utilă. Cu toate acestea, pentru DORIS, chiar dacă secvențele de adrese intră în conflict cu sarcina utilă, aceste adrese au fost permise. Prin urmare, simularea a arătat că, deoarece densitatea informațiilor despre sarcina utilă a fost crescută prin micșorarea lungimii cuvântului de cod, numărul de adrese disponibile nu s-a modificat pentru DORIS, deoarece nu au fost introduse restricții asupra altor adrese decât că nu li s-a permis să fie similare cu alte adrese (Fig. 2D, stânga, roz). De asemenea, așa cum era de așteptat, pe măsură ce densitatea informațiilor despre sarcina utilă a crescut, capacitatea bazei de date a crescut monoton, deoarece numărul de adrese de fișiere a rămas același ca și numărul total de fire pe fișier (Fig. 2D, dreapta, roz). În schimb, pentru PCR, adresele care au apărut în orice secvență de sarcină utilă de date au fost excluse; rezultatul a fost că creșterea densității informațiilor despre sarcina utilă a oferit inițial un beneficiu minor capacității globale (Fig. 2D, dreapta, albastru), dar în cele din urmă a dus la o scădere catastrofală a capacității, deoarece numărul de adrese care nu au intrat în conflict cu nicio secvență de sarcină utilă a scăzut rapid la zero (Fig. 2D, stânga, albastru). Deși este posibil să se mărească numărul de toroane distincte pe adresă (adică., informații pe fișier) pentru a compensa pierderea adreselor, acest lucru ar duce la fișiere prea mari pentru a fi secvențiate și decodate într-o singură secvență run17. De asemenea, este important să rețineți că simulările noastre s-au bazat pe densități de cuvinte de cod foarte conservatoare și o dimensiune a bazei de date de numai 109 fire ADN, în timp ce sistemele de stocare viitoare sunt susceptibile să depășească 1012 fire sau mai mari. Pe măsură ce densitățile bazei de date și spațiile de secvență ADN cresc, numărul de adrese disponibile pentru sistemele bazate pe PCR va scădea și mai mult, în timp ce DORIS nu va fi afectat. Prin urmare, îmbunătățirile teoretice ale capacității și densității pe care le oferă DORIS ar putea fi ordine de mărime mai mari decât cele estimate în simulările noastre. Mai mult, DORIS simplifică foarte mult proiectarea adreselor; proiectarea seturilor de adrese ortogonale pentru sistemele bazate pe PCR care nu interacționează cu secvențele de sarcină utilă a datelor va deveni rapid dificil de calculat la dimensiuni mari ale bazei de date. Pe scurt, o bază de date compusă din SS-dsDNAs poate fi creată eficient în reacții cu un singur pot, iar suprapunerile ssDNA facilitează o metodă de separare bazată pe non-PCR care îmbunătățește specificitatea adresei și crește densitățile și capacitățile teoretice ale bazei de date.
DORIS permite accesul repetabil la fișiere
o cerință cheie, dar o provocare majoră pentru ingineria proprietăților dinamice în sistemele de stocare este reutilizarea sistemului. În această lucrare, ne-am inspirat din sistemele biologice naturale în care informațiile sunt accesate în mod repetat dintr-o singură copie permanentă a ADN-ului genomic prin procesul de transcriere. Așa cum se arată în Fig. 3A, accesul dinamic în DORIS începe prin separarea fizică a unui fișier de interes (SS-dsDNAs care împărtășesc aceeași adresă de consolă) folosind oligos legat de biotină și separare magnetică pe bază de streptavidină, transcrierea in vitro (IVT) a ADN-ului la ARNR31, returnarea fișierului în baza de date și transcrierea inversă a ARN-ului în ADNc pentru analiza sau secvențierea în aval.
am implementat acest sistem cu trei SS-dsDNAs distincte (A, B și C) reprezentând colectiv o bază de date cu trei fișiere și am accesat fișierul A cu un oligo biotinilat A’ (Fig. 3b & suplimentar Fig. 4). Apoi am măsurat cantitățile și compozițiile „bazei de date reținute” (umbrire ușoară) și „fișier reținut” (umbrire întunecată) prin qPCR (Eq. (8)). Baza de date reținută avea niveluri mai ridicate de fișiere B și C comparativ cu A, deoarece unele dintre firele fișierului A au fost eliminate în separarea magnetică. Fișierul reținut conținea în mare parte fire de fișier A, cu minim B sau C. Cea mai bună cantitate totală netă de fișier a recuperat din Baza de date reținută și fișierul reținut a fost de aproximativ 90% din ceea ce a fost inițial în baza de date. Rata mare de retenție a fișierului A a sugerat că un fișier ar putea fi re-accesat de mai multe ori. Am testat acest lucru accesând în mod repetat fișierul a de cinci ori și am măsurat cantitățile și compozițiile fișierului A, B și C în baza de date după fiecare acces (Fig. 3c & suplimentar Fig. 4c). Așa cum era de așteptat, cantitățile totale ale dosarelor B și C au fost menținute la niveluri relativ stabile în baza de date. Aproximativ 50% din firele de fișiere A au rămas după cinci accesări. Implicațiile practice pentru sistemele de stocare a ADN-ului sunt că doar 2 copii ale fiecărei secvențe distincte sunt necesare în baza de date inițială pentru fiecare 5 ori este accesat (ignorând efectele distribuțiilor de fire). Aceasta este o îmbunătățire față de accesul la fișiere bazat pe PCR, unde sunt preluate și amplificate mici alicote ale bazei de date. În acest caz, este necesară o copie a fiecărei secvențe distincte pentru fiecare acces; mai mult, spre deosebire de DORIS, toate celelalte fișiere de baze de date vor fi reduse în mod similar din abundență, chiar dacă nu au fost accesate. Astfel, DORIS poate prelungi durata de viață a bazelor de date ADN și poate permite accesul mai frecvent pentru aceeași masă totală de ADN sintetizat.
ne-am întrebat în continuare cum ar putea afecta reacția IVT stabilitatea bazei de date, deoarece se efectuează la o temperatură ridicată de 37 CTC și ar putea degrada SS-dsDNA. În timp ce baza de date reținută nu este expusă la IVT, fișierul accesat este, iar cantitatea de SS-dsDNA reținută ar putea fi afectată de lungimea IVT. Într-adevăr, în timp ce prezența ARN polimerazei în sine nu a avut niciun efect asupra fișierului reținut, durata timpului IVT a scăzut cantitatea de fișier reținut (Fig. 3b & suplimentar Fig. 4a). Interesant este faptul că reanalizarea fișierului reținut la 45 centimetric C și lăsarea acestuia să se răcească la temperatura camerei a îmbunătățit rata de retenție, dar timpii IVT mai lungi au redus totuși reținerea generală a fișierului (Fig suplimentar. 4b). Acest lucru sugerează că unele pierderi se datorează firelor de fișiere care se leagă de oligo-urile legate de mărgele sau ARN-urile care concurează cu SS-dsDNA, în timp ce unele pierderi se datorează degradării ADN-ului. Ca un control pentru a confirma că ss-dsDNA nu a contaminat ADNc generat din ARN transcris, ADNc a fost obținut numai atunci când ARN polimeraza a fost inclusă în reacția IVT (Fig suplimentar. 4d).
în continuare ne-am concentrat pe evaluarea calității și eficienței IVT. Pentru a verifica dacă ARN polimeraza ar putea crea transcrieri trunchiate sau alungite nedorite, am comandat o serie de șase ssDNAs cu o gamă de lungimi cuprinse între 110-180 nt (Fig. 4a & suplimentar Fig. 5). Acestea au fost transformate în ss-dsDNA, transcrise în ARN și transcrise invers și amplificate în dsDNA. Au fost observate benzi uniforme clare pentru SS-dsDNA, ARN și dsDNA. Creșterea timpului IVT a crescut randamentul ARN pentru toate șabloanele (Fig. 4b), deși doar 2 ore au fost suficiente pentru a obține benzi clare de ARN (Fig. 4c), iar timpul IVT nu a afectat lungimea ARN-ului generat. Pe scurt, informațiile pot fi accesate în mod repetat de la SS-dsDNAs prin separare bazată pe oligo și IVT.
Transcrierea poate fi reglată prin secvența promotorului
lucrările recente privind stocarea informațiilor moleculare au demonstrat utilitatea stocării informațiilor suplimentare în compoziția amestecurilor de molecule distincte, inclusiv DNA32,33. Deoarece informațiile accesate de DORIS se bazează pe polimeraza ARN T7 și există dovezi că variantele promotorului T7 pot afecta eficiența transcripției34, 35,36,37,38,am întrebat dacă randamentul transcripției pe bază de T7 ar putea fi modulat de secvențe nucleotidice specifice în jurul regiunii promotorului T7, menținând în același timp promotorul însuși constant pentru a permite generarea ss-dsDNA cu un singur vas (Fig. 2a, b). Pentru a aborda în mod cuprinzător această întrebare, am proiectat și comandat 1088 fire distincte de 160 nt ca o piscină oligo. Primele 1024 de fire conțineau toate secvențele posibile ale variantei 5 nt în amonte de secvența promotorului (Nnnnn-promotor, n este fiecare dintre cele patru nucleotide), iar ultimele 64 de secvențe au fost toate secvențele variantei 3 NT în aval de promotor (promotor-NNN, Fig. 5a). Deoarece nucleotidele NNNNN au fost localizate în consola ssDNA, am întrebat, de asemenea, dacă această regiune fiind monocatenară versus dublă catenară a avut vreun impact asupra eficienței transcripționale relative. Am creat mai întâi ss-dsDNA prin extensia primer și dsDNA prin PCR a bazinului oligo ssDNA. Atât bazele de date ss-dsDNA, cât și dsDNA au fost procesate cu IVT la 37 C pentru 8 ore, urmate de RT-PCR și secvențierea de generație următoare. Codurile de bare scurte au fost proiectate în regiunea sarcinii utile pentru a identifica din ce variantă de promotor a fost derivată fiecare transcriere secvențiată.
abundența fiecărei secvențe de transcriere distincte a fost normalizată la abundența sa în SS-dsDNA originală (Fig. 5b)sau dsDNA (suplimentar Fig. 6a) baza de date (Eq. (9)). A fost obținută o gamă largă și aproape continuă de abundențe normalizate, indicând faptul că această abordare ar putea fi valorificată pentru a crea amestecuri compoziționale complexe de ADN în viitor. Pentru a determina dacă pot exista principii simple de proiectare care descriu eficiența promotorului, am segmentat secvențele 1088 în quartile pe baza abundenței transcrierii și am importat datele în instrumentul WebLogo tool39. Am constatat că G sau A la poziția a 5-a direct în amonte și C sau T la poziția a 3-a direct în aval de promotorul T7 a dus, în general, la cele mai mari abundențe de ARN (Fig. 5c). Segmentarea datelor în funcție de conținutul A/T a arătat că există o ușoară preferință pentru ~50% conținut A/T în amonte de promotorul T7 și preferință pentru conținutul general scăzut A/T în aval de promotorul T7 (Fig. 5d).
acest experiment de secvențiere de generație următoare a oferit, de asemenea, încredere că DORIS este scalabil la bazine ss-dsDNA mari și complexe. Mai mult, analiza erorilor citirilor de secvențiere nu a indicat ștergeri sistematice, trunchieri sau substituții, iar nivelurile generale de eroare au fost cu mult sub cele deja prezente din sinteza ADN-ului (Fig. 5e).
DORIS permite operațiunile de fișiere în stocare
multe sisteme anorganice de stocare a informațiilor, chiar și arhive de stocare la rece, mențin capacitatea de a manipula dinamic fișierele. Capacități similare în sistemele bazate pe ADN ar crește semnificativ valoarea și competitivitatea acestora. consolele ssDNA au fost utilizate anterior pentru a executa calcule în contextul comutatoarelor toehold40,41,42,43 și, prin urmare, am emis ipoteza că ar putea fi utilizate pentru a implementa operațiuni de fișiere în stocare. Ca dovadă a principiului, am implementat blocarea, deblocarea, redenumirea și ștergerea fișierelor și am arătat că aceste operații pot fi efectuate la temperatura camerei (Fig. 6).
am început cu baza de date cu trei fișiere și am testat capacitatea unui oligo a’ legat de biotină de a lega și separa fișierul A la un interval de temperaturi de la 25 la 75 de metri cubi c (Fig. 6a, jos, fără blocare). Aproximativ 50% din firele de fișiere A au fost separate cu succes de baza de date. Pentru a bloca fișierul A, am separat fișierul a de baza de date cu trei fișiere și am amestecat într-un ssDNA lung de 50 nt (blocare) care avea o secvență complementară de 20 nt la consola ssDNA a fișierului A. cu blocarea în loc, oligo a’ nu mai putea separa fișierul decât la temperaturi mai ridicate de peste 45 octocent C (Fig. 6a, jos, fără cheie), probabil pentru că încuietoarea a fost topită din consolă, permițând oligo A’ să concureze pentru a lega consola. Pentru a debloca fișierul, am adăugat cheia care era un ssDNA de 50 nt complet complementar blocării. Am testat diferite temperaturi de deblocare și am constatat că cheia a reușit să scoată încuietoarea la temperatura camerei cu aceeași eficiență ca la temperaturi mai ridicate. Acest lucru se datorează probabil toehold-ului lung de 30 nt prezentat de blocare, permițând cheii să dezarhiveze blocarea din fișierul A. De asemenea, am optimizat raporturile molare relative (fișierul A: blocare: cheie: oligo a’ = 1: 10: 10: 15) pentru a minimiza separarea în afara țintei și pentru a asigura blocarea corespunzătoare. Am observat că temperatura la care a fost adăugată încuietoarea a influențat fidelitatea procesului de blocare. La 98 C, procesul de blocare a funcționat bine. Când încuietoarea a fost adăugată la 25 de Centimetre C, a existat o separare neetanșă chiar și atunci când nu a fost adăugată nicio cheie (Fig suplimentar. 7). Acest lucru se poate datora structurilor secundare care împiedică hibridizarea unor fire de fișier A cu încuietori la temperaturi scăzute. Din fericire, blocarea la 45 de Centimetre C a avut performanțe rezonabile, evitându-se astfel necesitatea ridicării sistemului la 98 de Centimetre C. În contextul unui viitor sistem de stocare a ADN-ului, fișierele puteau fi mai întâi separate, apoi blocate la o temperatură ridicată, apoi returnate în baza de date, evitând astfel expunerea întregii baze de date la temperaturi ridicate. Întregul proces ar putea fi altfel efectuat la temperatura camerei.
am implementat, de asemenea, redenumirea și ștergerea fișierelor. Pentru a redenumi un fișier cu adresa A pentru a avea adresa B, am amestecat fișierul a cu un ssDNA de 40 nt care se leagă de a, cu consola rezultată fiind adresa B (Fig. 6b). Am adăugat toate componentele la raporturi similare cu procesul de blocare (fișier: redenumirea oligo: accesarea oligo = 1: 10: 15) și redenumirea oligo a fost adăugat la 45 C. Apoi am testat câte fire de fișiere ar putea separa fiecare oligo A’, B’ sau C’ și am constatat că procesul de redenumire a blocat complet oligos a’ sau C’ de la separarea fișierului (Fig. 6B, partea de jos). Numai oligo B ‘ a reușit să separe fișierul sugerând că aproape toate firele au fost redenumite cu succes de la A la B. În mod similar, am redenumit cu succes fișierul a la C. Pe baza capacității oligos de a redenumi fișiere cu finalizare aproape 100%, am emis ipoteza și am constatat într-adevăr că un oligo scurt de 20 nt complet complementar cu A ar putea fi utilizat pentru a bloca complet consola fișierului A și, în esență, ștergeți-l din Baza de date (Fig. 6B, partea de jos). Un fișier ar putea fi, de asemenea, pur și simplu extras dintr-o bază de date pentru al șterge. Cu toate acestea, această formă alternativă de ștergere bazată pe blocare sugerează o modalitate de a asigura că orice fire de fișiere rămase care nu au fost extrase complet nu vor fi accesate în mod spurios în viitor.