ss-dsDNA-tråde kan oprettes effektivt i en pot
da fremtidige DNA-databaser ville bestå af op mod 1015 forskellige strenger17, spurgte vi først, om ss-dsDNA ‘ er kunne oprettes på en høj gennemstrømning og paralleliseret måde. Vi bestilte 160 nukleotid (nt) enkeltstrengede DNA’ er (ssDNA) med en fælles 23 nt-sekvens, der blev indsat 20 nt fra 3 ‘ – enden (Fig. 1c og 2a, supplerende tabel 1). Denne 23 nt-sekvens indeholdt T7 RNA-polymerasepromotoren, men blev også brugt til at binde en fælles primer til udfyldning og omdannelse af ssDNA til en ss-dsDNA. Dette blev opnået ved flere cyklusser med termisk udglødning og DNA-polymeraseforlængelse (f.eks. Dette resulterede i ss-dsDNA-tråde med et overhæng på 20 nt (Fig. 2A, top). Vi optimerede forholdet mellem ssDNA og primer, antallet af cyklusser sammen med andre miljøparametre (Fig. 2a, supplerende Fig. 1) For at maksimere mængden af ssdna konverteret til ss-dsDNA. Vi fandt, at faldende ssDNA:primerforhold forbi 1: 10 førte til en trinændring i mængden af ss-dsDNA produceret som kvantificeret ved gelelektroforese (supplerende Fig. 1b). Vi besluttede at konservativt arbejde med et 1:20 ssDNA: primer-forhold. Ved dette forhold fandt vi, at kun 4 PCR-cyklusser var nødvendige for at konvertere ssDNA til ss-dsDNA, som det ses af det opadgående skift i DNA-gelen (Fig. 2a).
dernæst testede vi, om denne metode kunne bruges til at skabe 3 forskellige ss-dsDNA ‘ er i en-pot-reaktioner, og hvis hver ss-dsDNA derefter kunne adskilles specifikt fra blandingen (Fig. 2b). Vi blandede 3 forskellige ssdna ‘er” A”,” B “og” C “sammen, tilføjede den fælles primer og udførte 4 PCR-cyklusser for at skabe ss-dsDNA’ er (her benævnt filer bestående af kun en unik streng hver). Vi brugte derefter biotinbundne 20 NT DNA-oligoer til at binde hver ss-dsDNA (dvs., hver fil, A, B og C har en tydelig overhæng sekvens eller filadresse) og adskilt dem ud fra blandingen ved hjælp af magnetiske perler funktionaliseret med streptavidin. Hver af disse oligoer var i stand til specifikt kun at adskille deres tilsvarende fil uden de to andre (Fig. 2B, bund, Ek. (1)). Det er vigtigt, at dette adskillelsestrin kunne udføres ved stuetemperatur (25 liter C) med kun minimale gevinster observeret ved højere oligoglødningstemperaturer på 35 eller 45 liter C (supplerende Fig. 2, Ek. (2)). Rumtemperaturen og den isotermiske karakter af dette trin er nyttig til praktiske DNA-lagringssystemer og til reduktion af DNA-nedbrydning.
mens 20 nt er en standard PCR-primerlængde, spurgte vi, om separationseffektiviteten kunne moduleres af forskellige overhængslængder og separationstemperaturer. Vi designede 5 ss-dsDNA ‘ er med 5-25 nt udhæng (supplerende Fig. 3). Vi separerede derefter hver streng ved hjælp af dens specifikke biotin-bundne oligo ved 15-55 liter C. Vi observerede forbedret separationseffektivitet for længere oligoer (20mers og 25mers) og ved lavere temperaturer (15 liter C og 25 liter C, supplerende Fig. 3b). Dette var i overensstemmelse med en termodynamisk analyse ved anvendelse af Oligonukleotidegenskabsberegner (supplerende Fig. 3c, metoder, EKV. (3)–(5))28,29,30.
DORIS øger densitet og kapacitetsgrænser
en potentiel fordel ved separationer af filer ved stuetemperatur er, at de dobbeltstrengede dele af ss-dsDNA ‘ erne forbliver udglødet sammen og kan blokere uønsket oligo-binding til lignende sekvenser i data nyttelastregionerne. Data nyttelastregionen er størstedelen af sekvensen midt i ss-dsDNA ‘ er, der indeholder de lagrede oplysninger. For at teste denne hypotese skabte vi to ss-dsDNA ‘ er (Fig. 2c). Et ss-dsDNA havde et overhæng, der bandt oligo A ‘og et internt bindingssted for oligo B’. Vi bekræftede eksperimentelt, at ved at bruge Doris, kun oligo A’ men ikke oligo B’ kunne adskille strengen. Til sammenligning smelter PCR-baserede systemer dsDNA ‘ er i hver cyklus, hvilket gør det muligt for primere at binde off-target inden for data nyttelast. Som forventet, når PCR blev anvendt, både oligo A’ og oligo B’ bundet, med oligo B’ producerer uønskede trunkerede produkter. Den anden streng, vi testede, havde et internt bindingssted og overhæng, som begge var komplementære til oligo C’. Vi viste, at ved hjælp af Doris, oligo C’ gav kun fuld længde streng. I modsætning hertil skabte oligo C’ både fuld længde og trunkerede tråde ved brug af PCR.
Vi spurgte næste, hvilke konsekvenser denne blokerende egenskab af DORIS havde for DNA-baseret informationslagring. Efterhånden som databaserne stiger i størrelse, øges intuitivt sandsynligheden for sekvenser, der er identiske med adressesekvenser (enten overhæng for DORIS eller primersteder for PCR), der vises i data nyttelastregioner. Med DORIS er dette ikke et problem, da oligoer er blokeret fra at binde dsDNA data nyttelast regioner. I PCR binder primere imidlertid disse data nyttelastregioner,så tidligere tilgange har udviklet kodningsalgoritmer, der begrænser primersekvenser (adresser) fra at overlappe med en hvilken som helst identisk eller lignende sekvens i data payloads11, 12, typisk undgå Hamming afstande inden for ~<6. Dette reducerer i sagens natur enten den tæthed, hvormed databaser kan kodes på grund af begrænsninger i data nyttelast sekvensrum, eller deres kapacitet på grund af en reduktion i antallet af unikke primersekvenser, der kan bruges. Tæthed er mængden af information, der er gemt pr. (6)), og det falder, når kodningsrestriktioner placeres, hvilket begrænser, hvilke sekvenser der kan bruges i nyttelastområdet (lavere mangfoldighedssekvensrum), mens kapacitet er den samlede mængde information, der kan gemmes i et system (EKV. (7)) og er afhængig af antallet af tilgængelige adresser, da de dikterer antallet af filer, der kan gemmes.
for at vise disse relationer kvantitativt er det i øjeblikket umuligt at analytisk løse for eller omfattende beregne antallet af tilgængelige adresser, der ikke interagerer med data nyttelastregionen, selv for databaser med moderat størrelse. Derfor udførte vi Monte Carlo-simuleringer for at estimere det samlede antal adresser og den samlede kapacitet, der kan opnås. Adressesekvenser blev (PCR) eller blev ikke (DORIS) udelukket, hvis de optrådte i data nyttelastregionerne i en database med 109 forskellige DNA-tråde (Fig. 2D, metoder). For at forenkle analysen brugte vi beregningskodeord til at kode data nyttelastregionen. Hvert kodeord er en særskilt NT-sekvens og indeholder en byte (B) digital information. Data nyttelastregionen kan gøres mere information tæt ved at reducere størrelsen på kodeordene, så flere kodeord (og bytes) passer inden for hver streng med fast længde. Afvejningen er, at mindre kodeord også vil øge sekvensdiversiteten af strengene (antallet af mulige forskellige sekvenser pr. Dette øger chancen for, at lignende sekvenser vises i nyttelasten, der er i konflikt med adressesekvenser.simuleringen vurderede, om adressesekvenser ville være i konflikt med nogen sekvenser i nyttelasten. Men for DORIS, selvom adressesekvenser var i konflikt med nyttelasten, var disse adresser tilladt. Simuleringen viste derfor, at da informationstætheden for nyttelast blev øget ved at krympe kodeordslængden, ændrede antallet af tilgængelige adresser sig ikke for Doris, da der ikke blev lagt begrænsninger på andre adresser end at de ikke fik lov til at ligne andre adresser (Fig. 2D, venstre, lyserød). Også som forventet, da nyttelastinformationstætheden steg, steg databasekapaciteten monotont, da antallet af filadresser forblev det samme som det samlede antal tråde pr. 2D, højre, lyserød). I modsætning hertil blev adresser, der optrådte i en hvilken som helst data nyttelastsekvens, udelukket for PCR; resultatet var, at stigende nyttelastinformationstæthed oprindeligt gav en mindre fordel for den samlede kapacitet (Fig. 2D, højre, blå), men førte til sidst til et katastrofalt fald i kapaciteten, da antallet af adresser, der ikke var i konflikt med nogen nyttelastsekvens, hurtigt faldt til nul (Fig. 2D, venstre, blå). Mens det er muligt at øge antallet af forskellige tråde pr. fil) for at kompensere for tab af adresser, ville dette resultere i filer for store til at blive sekventeret og afkodet i en enkelt sekventering run17. Det er også vigtigt at bemærke, at vores simuleringer var baseret på meget konservative kodeordstætheder og en databasestørrelse på kun 109 DNA-tråde, mens fremtidige lagringssystemer sandsynligvis vil overstige 1012 tråde eller derover. Efterhånden som databasetætheder og DNA-sekvensrum øges, vil antallet af tilgængelige adresser til PCR-baserede systemer falde endnu længere, mens DORIS ikke påvirkes. Derfor kan de teoretiske kapacitets-og tæthedsforbedringer, som DORIS giver, være størrelsesordener større end det, der estimeres i vores simuleringer. Desuden forenkler DORIS i høj grad adressedesign; design af sæt ortogonale adresser til PCR-baserede systemer, der ikke interagerer med data nyttelastsekvenser, bliver hurtigt beregningsmæssigt uhåndterlige i store databasestørrelser. Sammenfattende kan en database bestående af ss-dsDNA ‘ er oprettes effektivt i en-pot-reaktioner, og ssDNA-overhæng letter en ikke-PCR-baseret separationsmetode, der forbedrer adressespecificitet og øger teoretiske databasetætheder og kapaciteter.
DORIS muliggør gentagelig filadgang
et nøglekrav, men en stor udfordring for at konstruere dynamiske egenskaber i lagersystemer er systemets genanvendelighed. I dette arbejde hentede vi inspiration fra naturlige biologiske systemer, hvor information gentagne gange fås fra en enkelt permanent kopi af genomisk DNA gennem transkriptionsprocessen. Som vist i Fig. 3A, dynamisk adgang i DORIS starter med fysisk at adskille en fil af interesse (ss-dsDNA ‘er, der deler den samme overhæng-adresse) ved hjælp af biotin-linkede oligoer og streptavidin-baseret magnetisk adskillelse, in vitro transkribering (IVT) DNA’ et til RNA31, returnering af filen til databasen og omvendt transkribering af RNA ‘ et til cDNA til nedstrøms analyse eller sekventering.
Vi implementerede dette system med tre forskellige ss-dsDNA’ er (A, B og C) samlet repræsenterer en tre-fil database, og vi fik adgang til fil A med en biotinyleret oligo A ‘ (Fig. 3b & supplerende Fig. 4). Vi målte derefter mængderne og sammensætningerne af “beholdt database” (lysskygge) og “beholdt fil” (mørk skygge) ved hjælp af kpcr. (8)). Den tilbageholdte database havde højere niveauer af filer B og C sammenlignet med A, da nogle af fil A-strengene blev fjernet i den magnetiske adskillelse. Den tilbageholdte fil indeholdt for det meste fil A-tråde med minimal B eller C. Den bedste samlede nettobeløb af fil A, der blev gendannet fra den tilbageholdte database og den tilbageholdte fil, var cirka 90% af det, der oprindeligt var i databasen. Den høje retention rate af file a foreslog, at en fil kunne genåbnes flere gange. Vi testede dette ved gentagne gange at få adgang til fil A fem gange og målte mængderne og sammensætningerne af fil A, B og C i databasen efter hver adgang (Fig. 3c & supplerende Fig. 4c). Som forventet blev de samlede mængder af fil B og C opretholdt på relativt stabile niveauer i databasen. 50% af file A-strengene forblev efter fem adganger. De praktiske implikationer for DNA-lagringssystemer er, at der kun er behov for 2 kopier af hver særskilt sekvens i den oprindelige database for hver 5 gange, den er tilgængelig (ignorerer virkningerne af strengfordelinger). Dette er en forbedring i forhold til PCR-baseret filadgang, hvor små alikvoter af databasen tages og forstærkes. I dette tilfælde er der brug for en kopi af hver særskilt sekvens for hver adgang; desuden, i modsætning til i DORIS, alle de andre databasefiler vil blive tilsvarende reduceret i overflod, selvom de ikke var adgang. DORIS kan således forlænge levetiden for DNA-databaser og give mulighed for hyppigere adgang til den samme samlede masse af syntetiseret DNA.
Vi spurgte næste, hvordan IVT-reaktionen kan påvirke databasestabiliteten, da den udføres ved en forhøjet temperatur på 37 liter C og kunne nedbryde ss-dsDNA. Mens den tilbageholdte database ikke udsættes for IVT, er den tilgængelige fil, og mængden af bevaret ss-dsDNA kan blive påvirket af længden af IVT. Selvom tilstedeværelsen af RNA-polymerase i sig selv ikke havde nogen effekt på den tilbageholdte fil, reducerede længden af IVT-tiden mængden af tilbageholdt fil (Fig. 3b & supplerende Fig. 4a). Interessant nok forbedrede reannealing af den tilbageholdte fil ved 45 kg C og lod den køle tilbage til stuetemperatur retentionshastigheden, men længere IVT-tider reducerede stadig den samlede filretention (supplerende Fig. 4b). Dette antyder, at noget tab skyldes filstrengene, der ikke binder sig fra de perlebundne oligoer eller RNA ‘ er, der konkurrerer med ss-dsDNA, mens noget tab skyldes DNA-nedbrydning. Som kontrol for at bekræfte, at ss-dsDNA ikke kontaminerede cDNA genereret fra det transkriberede RNA, blev cDNA kun opnået, når RNA-polymerase blev inkluderet i IVT-reaktionen (supplerende Fig. 4d).
Vi fokuserede derefter på at vurdere kvaliteten og effektiviteten af IVT. For at kontrollere, om RNA-polymerase muligvis skaber uønskede trunkerede eller aflange udskrifter, bestilte vi en serie på seks ssdna ‘ er med en række længder, der spænder over 110-180 nt (Fig. 4a& supplerende Fig. 5). Disse blev omdannet til ss-dsDNA, transkriberet til RNA og omvendt transkriberet og forstærket til dsDNA. Der blev set klare ensartede bånd for ss-dsDNA, RNA og dsDNA. Stigende IVT-tid øgede udbyttet af RNA for alle skabeloner (Fig. 4b), skønt kun 2 timer var tilstrækkelig til at opnå klare RNA-bånd (Fig. 4c), og IVT-tiden påvirkede ikke længden af det genererede RNA. Sammenfattende kan information gentagne gange fås fra ss-dsDNA ‘ er ved oligobaseret adskillelse og IVT.
transkription kan indstilles af promotorsekvens
nylige værker om molekylær informationslagring har vist nytten af at lagre yderligere information i sammensætningen af blandinger af forskellige molekyler, herunder DNA32,33. Da den information, som DORIS har adgang til, er afhængig af T7 RNA-polymerasen, og der er bevis for,at T7-promotorvarianter kan påvirke transkriptionseffektivitet34,35,36,37, 38, spurgte vi, om udbyttet af T7-baseret transkription kunne moduleres af specifikke nukleotidsekvenser omkring T7-promotorregionen, mens promotoren selv holdes konstant for at muliggøre en-pot ss-dsDNA-generation (Fig. 2a, b). For at løse dette spørgsmål grundigt designede og bestilte vi 1088 forskellige 160 nt-tråde som en oligopool. De første 1024 tråde indeholdt alle mulige 5 NT-variantsekvenser opstrøms for promotorsekvensen (NNNNN-promotor, N er hver af de fire nukleotider), og de sidstnævnte 64 sekvenser var alle 3 nt-variantsekvenser nedstrøms for promotoren (promotor-NNN, Fig. 5a). Da nnnnn-nukleotiderne var placeret i ssDNA-overhænget, vi spurgte også, om denne region var enkeltstrenget versus dobbeltstrenget, havde nogen indflydelse på relativ transkriptionseffektivitet. Vi oprettede først ss-dsDNA ved primerudvidelse og dsDNA ved PCR af ssdna oligo pool. Både SS-dsDNA-og dsDNA-databaser blev behandlet med IVT ved 37 liter C i 8 timer efterfulgt af RT-PCR og næste generations sekventering. Korte stregkoder blev designet i nyttelastområdet for at identificere, hvilken promotorvariant hvert sekventeret transkript blev afledt af.
overfloden af hver særskilt transkriptionssekvens blev normaliseret til dens overflod i den originale ss-dsDNA (Fig. 5b) eller dsDNA (supplerende Fig. 6A) database. (9)). En bred og næsten kontinuerlig række normaliserede overflader blev opnået, hvilket indikerer, at denne tilgang kunne udnyttes til at skabe komplekse kompositionsblandinger af DNA i fremtiden. For at afgøre, om der kan være enkle designprincipper, der beskrev promotorens effektivitet, segmenterede vi 1088-sekvenserne i kvartiler baseret på transkript overflod og importerede dataene til blogo tool39. Vi fandt ud af, at G eller A i 5.position direkte opstrøms og C eller T i 3. position direkte nedstrøms for T7-promotoren generelt resulterede i de højeste RNA-overflader (Fig. 5c). Segmentering af dataene med A/T-indhold viste, at der var en lille præference for ~50% A/T-indhold opstrøms for T7-promotoren og præference for samlet lavt A / T-indhold nedstrøms for T7-promotoren (Fig. 5d).
dette næste generations sekventeringseksperiment gav også tillid til, at DORIS er skalerbar til store og komplekse ss-dsDNA-puljer. Desuden viste fejlanalyse af sekventeringslæsningerne ingen systematiske sletninger, trunkeringer eller substitutioner, og de samlede fejlniveauer var langt under dem, der allerede var til stede fra DNA-syntese (Fig. 5e).
DORIS muliggør filoperationer i opbevaring
mange uorganiske informationslagringssystemer, endda kølelagringsarkiver, opretholder evnen til dynamisk at manipulere filer. Lignende kapaciteter i DNA-baserede systemer vil øge deres værdi og konkurrenceevne betydeligt. ssDNA-overhæng er tidligere blevet brugt til at udføre beregninger i forbindelse med toehold-omskifter40,41,42,43, og vi antog derfor, at de kunne bruges til at implementere filoperationer i opbevaring. Som et bevis på princippet implementerede vi låsning, oplåsning, omdøbning og sletning af filer og viste, at disse operationer kunne udføres ved stuetemperatur (Fig. 6).
vi startede med tre-fildatabasen og testede evnen hos en biotin-bundet oligo A’ til at binde og adskille fil A ved et temperaturområde fra 25 Til 75 liter C (Fig. 6a, bund, ingen lås). Cirka 50% af fil A-tråde blev adskilt fra databasen. For at låse fil A adskilte vi Fil A fra tre-fildatabasen og blandede i en lang 50 nt ssDNA (lås), der havde en 20 NT komplementær sekvens til ssdna-overhænget af Fil A. med låsen på plads var oligo a’ ikke længere i stand til at adskille filen undtagen ved højere temperaturer over 45 kr (Fig. 6a, bund, ingen nøgle), formodentlig fordi låsen blev smeltet fra overhænget, hvilket gjorde det muligt for oligo a’ at konkurrere om at binde overhænget. For at låse filen op tilføjede vi nøglen, der var en 50 nt ssDNA fuldt ud komplementær til låsen. Vi testede forskellige oplåsningstemperaturer og fandt, at nøglen var i stand til at fjerne låsen ved stuetemperatur med samme effektivitet som ved højere temperaturer. Dette skyldes sandsynligvis det lange 30 nt-tåhold, der præsenteres af låsen, hvilket gør det muligt for nøglen at pakke låsen ud fra Fil A. Vi optimerede også de relative molforhold (fil A: lås: nøgle: oligo a’ = 1: 10: 10: 15) for at minimere off-target adskillelse og sikre korrekt låsning. Vi observerede, at den temperatur, ved hvilken låsen blev tilføjet, påvirkede låseprocessen. Ved 98 kr. fungerede låseprocessen godt. Da låsen blev tilføjet ved 25 liter C, var der utæt adskillelse, selv når der ikke blev tilføjet nogen nøgle (supplerende Fig. 7). Dette kan skyldes sekundære strukturer, der forhindrer nogle Fil A-tråde i at hybridisere med låse ved lave temperaturer. Heldigvis, låsning ved 45 Karin C havde rimelig ydeevne, således at man undgår behovet for at hæve systemet til 98 Karin C. I forbindelse med et fremtidigt DNA-lagringssystem, filer kunne først adskilles og derefter låses ved en forhøjet temperatur, derefter returneres til databasen, således at man undgår eksponering af hele databasen for forhøjede temperaturer. Hele processen kunne ellers udføres ved stuetemperatur.
Vi har også implementeret fil omdøbning og sletning. For at omdøbe en fil med adresse A for at have adresse B blandede vi Fil A med en 40 nt ssDNA, der binder til A, hvor det resulterende overhæng er Adresse B (Fig. 6b). Vi tilføjede alle komponenter i lignende forhold til låseprocessen (fil: omdøbning af oligo: adgang til oligo = 1: 10: 15), og omdøbningen af oligo blev tilføjet ved 45 kar C. Vi testede derefter, hvor mange filstrenge hver oligo A’, B’ eller C’ kunne adskille og fandt ud af, at omdøbningsprocessen fuldstændigt blokerede oligos a’ eller C’ fra at adskille filen (Fig. 6B, bund). Kun oligo B ‘ var i stand til at adskille filen, hvilket tyder på, at næsten alle tråde blev omdøbt fra A til B. tilsvarende omdøbte vi med succes fil A til C. Baseret på oligos evne til at omdøbe filer med næsten 100% færdiggørelse, antog vi og fandt faktisk, at en kort 20 nt oligo, der fuldt ud supplerer A, kunne bruges til fuldstændigt at blokere overhænget af fil A og i det væsentlige slette det fra databasen (Fig. 6B, bund). En fil kan også simpelthen udvindes fra en database for at slette den også. Denne alternative form for blokeringsbaseret sletning antyder imidlertid en måde at sikre, at eventuelle resterende filstrenge, der ikke blev fuldstændigt ekstraheret, ikke ville blive spuriously adgang til i fremtiden.