ss-dsDNA-strängar kan skapas effektivt i en pot
eftersom framtida DNA-databaser skulle bestå av uppemot 1015 distinkta strands17 frågade vi först om ss-dsDNAs kunde skapas på ett högt genomströmning och parallelliserat sätt. Vi beställde 160 nukleotid (nt) enkelsträngade DNA (ssDNA) med en gemensam 23 nt-sekvens som var infälld 20 nt från 3′ – änden (Fig. 1c och 2a, kompletterande Tabell 1). Denna 23 nt-sekvens innehöll T7 RNA-polymeraspromotorn, men användes också för att binda en vanlig primer för att fylla ut och omvandla ssDNA till en ss-dsDNA. Detta uppnåddes genom flera cykler av termisk glödgning och DNA-polymerasförlängning (t.ex. PCR-cykler men med endast en primer). Detta resulterade i ss-dsDNA strängar med en 20 nt överhäng (Fig. 2A, topp). Vi optimerade förhållandet mellan ssDNA och primer, antalet cykler, tillsammans med andra miljöparametrar (Fig. 2a, kompletterande Fig. 1) för att maximera mängden ssDNA omvandlas till ss-dsDNA. Vi fann att minska ssDNA:primerförhållande förbi 1: 10 ledde till en stegförändring i mängden ss-dsDNA producerad som kvantifierad av gelelektrofores (kompletterande Fig. 1b). Vi bestämde oss för att konservativt arbeta med ett 1: 20 ssDNA: primerförhållande. Vid det förhållandet fann vi att endast 4 PCR-cykler behövdes för att omvandla ssDNA till ss-dsDNA, vilket ses av uppåtgående skift i DNA-gelen (Fig. 2a).
därefter testade vi om denna metod kunde användas för att skapa 3 distinkta ss-dsDNAs i enpottreaktioner och om varje ss-dsDNA kunde separeras specifikt från blandningen (Fig. 2b). Vi blandade 3 distinkta ssDNAs ”A”, ”B” och ” C ” tillsammans, lade till den gemensamma primern och utförde 4 PCR-cykler för att skapa ss-dsDNAs (här kallade filer som består av bara en unik sträng vardera). Vi använde sedan biotin-länkade 20 NT DNA oligos för att binda varje ss-dsDNA (dvs., varje fil, A, B och C har en distinkt överhängssekvens eller filadress) och separerade dem ut från blandningen med hjälp av magnetiska pärlor functionalized med streptavidin. Var och en av dessa oligos kunde specifikt separera endast deras motsvarande fil utan de andra två (Fig. 2B, botten, Eq. (1)). Det är viktigt att detta separationssteg kan utföras vid rumstemperatur (25 kg c) med endast minimala vinster observerade vid högre oligoglödgningstemperaturer på 35 eller 45 kg c (kompletterande Fig. 2, Eq. (2)). Rumstemperaturen och isotermisk karaktär av detta steg är användbart för praktiska DNA-lagringssystem och för att minska DNA-nedbrytning.
medan 20 nt är en standard PCR-primerlängd frågade vi om separationseffektiviteten kunde moduleras av olika överhänglängder och separationstemperaturer. Vi designade 5 ss-dsDNAs med 5-25 nt överhäng (kompletterande Fig. 3). Vi separerade sedan varje sträng med hjälp av dess specifika biotin-länkade oligo vid 15-55 C. Vi observerade förbättrad separationseffektivitet för längre oligos (20mers och 25mers) och vid lägre temperaturer (15 C och 25 c c, kompletterande Fig. 3b). Detta var i överensstämmelse med en termodynamisk analys med användning av oligonukleotid egenskaper kalkylator (kompletterande Fig. 3c, metoder, Eqs. (3)–(5))28,29,30.
Doris ökar täthets-och kapacitetsgränserna
en potentiell fördel med rumstemperaturavskiljningar av filer är att de dubbelsträngade delarna av ss-dsDNAs förblir glödgade tillsammans och kan blockera oönskad oligobindning till liknande sekvenser i data nyttolastregionerna. Data nyttolast regionen är majoriteten av sekvensen i mitten av ss-dsDNAs som innehåller den lagrade informationen. För att testa denna hypotes skapade vi två ss-dsDNAs (Fig. 2c). En ss-dsDNA hade ett överhäng som band oligo A ’och en intern bindningsplats för oligo B’. Vi verifierade experimentellt att genom att använda DORIS kunde bara oligo A’ men inte oligo B’ skilja ut strängen. Som jämförelse smälter PCR-baserade system dsDNAs i varje cykel, vilket gör att primers kan binda off-target inom data nyttolasten. Som förväntat, när PCR användes, både oligo A’ och oligo B’ bundna, med oligo B’ producerar oönskade stympade produkter. Den andra strängen vi testade hade en intern bindningsplats och överhäng som båda var komplementära till oligo C’. Vi visade att oligo C’ med hjälp av DORIS bara gav fullängdssträngen. Däremot skapade oligo C när man använde PCR både Full längd och stympade strängar.
vi frågade sedan vilka konsekvenser denna blockerande egenskap hos DORIS hade för DNA-baserad informationslagring. När databaser ökar i storlek ökar intuitivt sannolikheten för sekvenser som är identiska med adresssekvenser (antingen överhäng för DORIS eller primerplatser för PCR) som visas i data nyttolastregioner. Med DORIS är detta inte ett problem eftersom oligos blockeras från att binda dsDNA-data nyttolastregionerna. I PCR binder primers dock dessa data nyttolastregioner,så tidigare tillvägagångssätt har utvecklat kodningsalgoritmer som begränsar primersekvenser (adresser) från överlappning med någon identisk eller liknande sekvens i databetalningarna11, 12, vilket vanligtvis undviker Hammaravstånd inom ~<6. Detta minskar i sig antingen densiteten med vilken databaser kan kodas på grund av begränsningar av data nyttolastsekvensutrymme eller deras kapacitet på grund av en minskning av antalet unika primersekvenser som kan användas. Densitet är mängden information lagrad per nt (Eq. (6)), och det minskar när kodningsbegränsningar placeras som begränsar vilka sekvenser som kan användas i nyttolastregionen (lägre mångfaldssekvensutrymme), medan kapaciteten är den totala mängden information som kan lagras i ett system (Eq. (7)) och är beroende av antalet tillgängliga adresser eftersom de dikterar antalet filer som kan lagras.
för att visa dessa relationer kvantitativt är det för närvarande svårt att analytiskt lösa för eller omfattande beräkna antalet tillgängliga adresser som inte interagerar med data nyttolastregionen, även för måttligt stora databaser. Därför utförde vi Monte Carlo-simuleringar för att uppskatta det totala antalet adresser och den totala kapaciteten som kan uppnås. Adresssekvenser var (PCR) eller inte (DORIS) uteslutna om de uppträdde i data nyttolastregionerna i en databas med 109 distinkta DNA-strängar (Fig. 2D, metoder). För att förenkla analysen använde vi beräkningskodord för att koda data nyttolastregionen. Varje kodord är en distinkt nt-sekvens och innehåller en byte (B) digital information. Data nyttolast regionen kan göras mer information tät genom att minska storleken på kodord så fler kodord (och byte) passar inom varje fast längd sträng. Avvägningen är att mindre kodord också kommer att öka strängarnas sekvensdiversitet (antalet möjliga distinkta sekvenser per stränglängd) på grund av fler kodord-kodordkorsningar per sträng. Detta ökar chansen att liknande sekvenser visas i nyttolasten som strider mot adresssekvenser.
simuleringen bedömde om adresssekvenser skulle komma i konflikt med några sekvenser i nyttolasten. Men för DORIS, även om adresssekvenser stred mot nyttolasten, tilläts dessa adresser. Simuleringen visade därför att eftersom nyttolastinformationstätheten ökades genom krympning av kodordslängden ändrades inte antalet tillgängliga adresser för DORIS eftersom inga begränsningar placerades på andra adresser än att de inte fick likna andra adresser (Fig. 2D, vänster, rosa). Också som förväntat, när nyttolastinformationstätheten ökade, ökade databaskapaciteten monotont eftersom antalet filadresser förblev detsamma som det totala antalet strängar per fil (Fig. 2D, höger, rosa). Däremot för PCR utesluts adresser som uppträdde i någon data nyttolastsekvens; resultatet var att ökad nyttolastinformationsdensitet initialt gav en mindre fördel för den totala kapaciteten (Fig. 2D, höger, blå) men ledde så småningom till en katastrofal kapacitetsminskning eftersom antalet adresser som inte stred mot någon nyttolastsekvens snabbt sjönk till noll (Fig. 2D, vänster, blå). Även om det är möjligt att öka antalet distinkta strängar per adress (dvs., information per fil) för att kompensera för förlust av adresser, skulle detta resultera i filer för stora för att sekvenseras och avkodas i en enda sekvensering run17. Det är också viktigt att notera att våra simuleringar baserades på mycket konservativa kodordstäthet och en databasstorlek på endast 109 DNA-strängar, medan framtida lagringssystem sannolikt kommer att överstiga 1012 strängar eller mer. När databasdensiteter och DNA-sekvensutrymmen ökar kommer antalet adresser som är tillgängliga för PCR-baserade system att sjunka ytterligare medan DORIS kommer att påverkas inte. Därför kan de teoretiska kapacitets-och täthetsförbättringarna DORIS tillhandahåller vara storleksordningar större än vad som uppskattas i våra simuleringar. Dessutom förenklar DORIS kraftigt adressdesign; utforma uppsättningar av ortogonala adresser för PCR-baserade system som inte interagerar med data nyttolastsekvenser kommer snabbt att bli beräknings svår vid stora databasstorlekar. Sammanfattningsvis kan en databas bestående av ss-dsDNAs skapas effektivt i enpottreaktioner, och ssDNA-överhäng underlättar en icke-PCR-baserad separationsmetod som förbättrar adressspecificitet och ökar teoretiska databasdensiteter och kapacitet.
DORIS möjliggör repeterbar filåtkomst
ett viktigt krav men stor utmaning för tekniska dynamiska egenskaper i lagringssystem är systemets återanvändbarhet. I detta arbete tog vi inspiration från naturliga biologiska system där information upprepade gånger nås från en enda permanent kopia av genomiskt DNA genom transkriptionsprocessen. Som visas i Fig. 3A, dynamisk åtkomst i DORIS börjar med att fysiskt separera en fil av intresse (ss-dsDNAs som delar samma överhäng adress) med hjälp av biotin-länkade oligos och streptavidin-baserad magnetisk separation, in vitro transkribera (IVT) DNA till RNA31, returnera filen till databasen och omvänd transkribera RNA till cDNA för nedströmsanalys eller sekvensering.
vi implementerade detta system med tre distinkta ss-dsDNAs (A, B och C) som kollektivt representerar en databas med tre filer, och vi öppnade fil A med en biotinylerad oligo A’ (Fig. 3b& kompletterande Fig. 4). Vi mätte sedan mängderna och kompositionerna i den ”behållna databasen” (ljusskuggning) och ”behållna filen” (mörk skuggning) av qPCR (Eq. (8)). Den behållna databasen hade högre nivåer av filer B och C jämfört med A, eftersom några av fil A-strängarna avlägsnades i magnetisk separation. Den kvarhållna filen innehöll mestadels fil A-strängar, med minimal B eller C. Den bästa netto totala mängden fil A som återställdes från den behållna databasen och behållna filen var ungefär 90% av det som ursprungligen fanns i databasen. Den höga lagringsgraden för fil A föreslog att en fil kunde nås flera gånger igen. Vi testade detta genom att upprepade gånger komma åt fil A fem gånger och mätte mängderna och kompositionerna av fil A, B och C i databasen efter varje åtkomst (Fig. 3C& kompletterande Fig. 4c). Som förväntat bibehölls de totala mängderna av fil B och C på relativt stabila nivåer i databasen. Cirka 50% av fil A-strängar kvarstod efter fem åtkomst. De praktiska konsekvenserna för DNA-lagringssystem är att endast 2 kopior av varje distinkt sekvens behövs i den ursprungliga databasen för varje 5 gånger den nås (ignorerar effekterna av strandfördelningar). Detta är en förbättring jämfört med PCR-baserad filåtkomst där små alikvoter i databasen tas och förstärks. I detta fall behövs en kopia av varje distinkt sekvens för varje åtkomst; dessutom, till skillnad från i DORIS, kommer alla andra databasfiler att minskas på samma sätt i överflöd även om de inte nås. Således kan DORIS förlänga livslängden för DNA-databaser och möjliggöra mer frekvent åtkomst för samma totala massa DNA syntetiserat.
vi frågade sedan hur IVT-reaktionen kan påverka databasstabiliteten, eftersom den utförs vid en förhöjd temperatur på 37 CCC och kan försämra ss-dsDNA. Medan den lagrade databasen inte utsätts för IVT, är den åtkomna filen, och mängden ss-dsDNA som behålls kan påverkas av längden på IVT. Faktum är att även om närvaron av RNA-polymeras i sig inte hade någon effekt på den kvarhållna filen, minskade längden på IVT-tiden mängden kvarhållen fil (Fig. 3b& kompletterande Fig. 4a). Intressant, reannealing den kvarhållna filen vid 45 CCC och låta den svalna tillbaka till rumstemperatur förbättrade retentionshastigheten, men längre IVT-tider minskade fortfarande den totala filretentionen (kompletterande Fig. 4b). Detta tyder på att viss förlust beror på att filsträngarna lossnar från de pärlbundna oligos eller RNA som konkurrerar med ss-dsDNA, medan viss förlust beror på DNA-nedbrytning. Som en kontroll för att bekräfta att ss-dsDNA inte förorenar cDNA genererat från det transkriberade RNA, erhölls cDNA endast när RNA-polymeras inkluderades i IVT-reaktionen (kompletterande Fig. 4d).
vi fokuserade nästa på att bedöma IVT: s kvalitet och effektivitet. För att kontrollera om RNA-polymeras kan skapa oönskade stympade eller långsträckta transkript beställde vi en serie av sex ssDNAs med ett intervall av längder som spänner över 110-180 nt (Fig. 4a& kompletterande Fig. 5). Dessa omvandlades till ss-dsDNA, transkriberades till RNA och omvänt transkriberades och förstärktes till dsDNA. Tydliga enhetliga band sågs för ss-dsDNA, RNA och dsDNA. Ökande IVT-tid ökade utbytet av RNA för alla mallar (Fig. 4b), även om bara 2 h var tillräckligt för att erhålla tydliga RNA-band (Fig. 4C) och IVT-tid påverkade inte längden på det genererade RNA. Sammanfattningsvis kan information upprepade gånger nås från ss-dsDNAs genom oligobaserad separation och IVT.
transkription kan ställas in genom promotor sekvens
senaste verk på molekylär informationslagring har visat nyttan av att lagra ytterligare information i sammansättningen av blandningar av distinkta molekyler, inklusive DNA32,33. Eftersom informationen som DORIS har tillgång till är beroende av T7 RNA-polymeraset, och det finns bevis för att T7-promotorvarianter kan påverka transkriptionseffektivitet34,35,36,37,38, frågade vi om utbytet av T7-baserad transkription kunde moduleras av specifika nukleotidsekvenser runt T7-promotorregionen samtidigt som promotorn själv hålls konstant för att möjliggöra en-pot ss-dsDNA-generation (Fig. 2a, b). För att fullständigt ta itu med denna fråga designade och beställde vi 1088 distinkta 160 nt-strängar som en oligopool. De första 1024 strängarna innehöll alla möjliga 5 nt-variantsekvenser uppströms till promotorsekvensen (NNNNN-promotor, N är var och en av de fyra nukleotiderna), och de senare 64 sekvenserna var alla 3 nt-variantsekvenser nedströms promotorn (promotor-NNN, Fig. 5a). Eftersom nnnnn-nukleotiderna var belägna i ssDNA-överhänget frågade vi också om denna region var enkelsträngad kontra dubbelsträngad hade någon inverkan på relativa transkriptionseffektivitet. Vi skapade först ss-dsDNA av primer extension och dsDNA av PCR av ssDNA oligo pool. Både ss-dsDNA-och dsDNA-databaser bearbetades med IVT vid 37 C i 8 h, följt av RT-PCR och nästa generations sekvensering. Korta streckkoder utformades i nyttolastregionen för att identifiera vilken promotorvariant varje sekvenserad transkript härleddes från.
överflödet av varje distinkt transkriptionssekvens normaliserades till dess överflöd i den ursprungliga ss-dsDNA (Fig. 5b) eller dsDNA (kompletterande Fig. 6A) databas (Eq. (9)). Ett brett och nästan kontinuerligt intervall av normaliserade överflöd erhölls, vilket indikerar att detta tillvägagångssätt kunde utnyttjas för att skapa komplexa kompositionsblandningar av DNA i framtiden. För att avgöra om det kan finnas enkla designprinciper som beskrev promotorns effektivitet segmenterade vi 1088-sekvenserna i kvartiler baserat på transkriptöverflöd och importerade data till WebLogo-verktyget39. Vi fann att G eller A vid 5: e positionen direkt uppströms och C eller T vid 3: e positionen direkt nedströms om T7-promotorn resulterade i allmänhet i de högsta RNA-överflöd (Fig. 5c). Segmentering av data med A / T-innehåll visade att det fanns en liten preferens för ~50% A/T-innehåll uppströms T7-promotorn och preferens för totalt lågt a/T-innehåll nedströms T7-promotorn (Fig. 5d).
detta nästa generations sekvenseringsexperiment gav också förtroende för att DORIS är skalbar till stora och komplexa ss-dsDNA-pooler. Vidare indikerade felanalys av sekvenseringsläsningarna inga systematiska deletioner, trunkeringar eller substitutioner, och totala felnivåer var långt under de som redan fanns från DNA-syntes (Fig. 5e).
DORIS möjliggör filoperationer i lagring
många oorganiska informationslagringssystem, även kylförvaringsarkiv, upprätthåller möjligheten att dynamiskt manipulera filer. Liknande kapacitet i DNA-baserade system skulle avsevärt öka deras värde och konkurrenskraft. ssDNA-överhäng har tidigare använts för att utföra beräkningar i samband med toehold switches40,41,42,43, och vi antog därför att de kunde användas för att implementera filoperationer i lagring. Som ett principiellt bevis genomförde vi låsning, upplåsning, byte av namn och radering av filer och visade att dessa operationer kunde utföras vid rumstemperatur (Fig. 6).
vi började med databasen med tre filer och testade förmågan hos en biotin-länkad oligo A’ att binda och separera fil A vid ett temperaturområde från 25 till 75 C (Fig. 6A, botten, inget lås). Ungefär 50% av fil A-strängar separerades framgångsrikt från databasen. För att låsa fil A separerade vi Fil A från databasen med tre filer och blandades i en lång 50 nt ssDNA (lås) som hade en 20 nt-komplementär sekvens till ssDNA-överhänget av fil A. med låset på plats kunde oligo A’ inte längre separera filen utom vid högre temperaturer över 45 C (Fig. 6A, botten, ingen nyckel), förmodligen för att låset smältes från överhänget, vilket möjliggjorde oligo A’ att tävla för att binda överhänget. För att låsa upp filen lade vi till nyckeln som var en 50 nt ssDNA helt komplementär till låset. Vi testade olika upplåsningstemperaturer och fann att nyckeln kunde ta bort låset vid rumstemperatur med samma effektivitet som vid högre temperaturer. Detta beror troligen på det långa 30 nt-tåhållet som presenteras av låset, vilket gör att nyckeln kan packa upp låset från Fil A. vi optimerade också de relativa molära förhållandena (fil A: lås: nyckel: oligo A’ = 1: 10: 10: 15) för att minimera separering utanför målet och säkerställa korrekt låsning. Vi observerade att temperaturen vid vilken låset tillsattes påverkade låsprocessens trohet. Vid 98 KB C fungerade låsprocessen bra. När låset tillsattes vid 25 c c, var det läckande separation även när ingen nyckel tillsattes (kompletterande Fig. 7). Detta kan bero på sekundära strukturer som förhindrar att vissa fil A-strängar hybridiserar med lås vid låga temperaturer. Lyckligtvis hade låsning vid 45 CX rimlig prestanda, vilket undviker behovet av att höja systemet till 98 C. I samband med ett framtida DNA-lagringssystem kunde filer först separeras sedan låsas vid en förhöjd temperatur och sedan återföras till databasen, vilket undviker exponering av hela databasen för förhöjda temperaturer. Hela processen kan annars utföras vid rumstemperatur.
vi implementerade också filbyte och radering. För att byta namn på en fil med adress A för att ha adress B, blandade vi Fil A med en 40 nt ssDNA som binder till A, med det resulterande överhänget som adress B (Fig. 6b). Vi lade till alla komponenter med liknande förhållanden till låsprocessen (fil: döpa om oligo: åtkomst till oligo = 1: 10: 15) och döpa om oligo tillsattes vid 45 C. Vi testade sedan hur många filsträngar varje oligo A’, B’ eller C’ kunde separera och fann att döpa processen helt blockerade oligos A’ eller C’ från att separera ut filen (Fig. 6B, botten). Endast oligo B ’ kunde separera filen som tyder på att nästan alla strängar framgångsrikt döptes om från A till B. På samma sätt döptes vi framgångsrikt om Fil A till C. Baserat på oligos förmåga att byta namn på filer med nära 100% slutförande, antog vi och fann faktiskt att en kort 20 nt oligo helt komplementär till A kunde användas för att helt blockera överhänget av fil A och i huvudsak radera det från databasen (Fig. 6B, botten). En fil kan också enkelt extraheras från en databas för att ta bort den också. Denna alternativa form av blockeringsbaserad radering föreslår dock att ett sätt att säkerställa att eventuella kvarvarande filsträngar som inte helt extraherades inte skulle komma åt i framtiden.