ss-dsDNA-tråder kan effektivt opprettes i en-pot
da fremtidige DNA-databaser vil bestå av oppover 1015 forskjellige tråder17, spurte vi først om ss-dsdna kunne opprettes på en høy gjennomstrømning og parallellisert måte. Vi bestilte 160 nukleotid (nt) enkeltstrengede DNAs (ssDNA) med en felles 23 nt-sekvens som var innfelt 20 nt fra 3′ enden (Fig. 1c og 2a, Supplerende Tabell 1). Denne 23 nt-sekvensen inneholdt T7 rna-polymerasepromotoren, men ble også brukt til å binde en felles primer for å fylle ut og konvertere ssDNA til en ss-dsDNA. Dette ble oppnådd ved flere sykluser av termisk annealing OG DNA polymerase forlengelse (F.eks PCR sykluser, MEN med bare en primer). Dette resulterte i ss – dsdna tråder med en 20 nt overheng (Fig. 2a, topp). Vi optimaliserte forholdet mellom ssDNA og primer, antall sykluser, sammen med andre miljøparametere (Fig. 2a, Supplerende Fig. 1) for å maksimere mengden ssDNA konvertert til ss-dsDNA. Vi fant at redusere ssDNA:primerforhold forbi 1: 10 førte til en trinnendring i mengden ss-dsDNA produsert som kvantifisert ved gelelektroforese (Supplerende Fig. 1b). Vi bestemte oss for å konservativt jobbe med et 1:20 ssdna: primer-forhold. Ved dette forholdet fant vi at bare 4 PCR-sykluser var nødvendig for å konvertere ssDNA til ss-dsDNA, sett ved oppoverskiftet I DNA-gelen(Fig . 2a).
deretter testet vi om denne metoden kunne brukes til å lage 3 forskjellige ss-dsdna i en-pot-reaksjoner, og hvis hver ss-dsDNA kunne skilles spesifikt fra blandingen (Fig . 2b). Vi blandet 3 forskjellige ssDNAs «A»,» B «og» C » sammen, la til den vanlige primeren, og utførte 4 PCR-sykluser for å lage ss-dsDNAs(her referert til som filer som består av bare en unik streng hver). Vi brukte deretter biotin-bundet 20 nt DNA oligos å binde hver ss-dsDNA (dvs., hver fil, A, B og C har en distinkt overheng sekvens eller fil adresse) og skilt dem ut fra blandingen ved hjelp av magnetiske perler functionalized med streptavidin. Hver av disse oligos var i stand til å spesifikt skille bare deres tilsvarende fil uten de to andre(Fig. 2b, bunn, Eq. (1)). Det er viktig at dette separasjonstrinnet kan utføres ved romtemperatur (25 °C) med kun minimale gevinster observert ved høyere oligo-glødetemperaturer på 35 Eller 45 °C(Supplerende Fig. 2, Eq. (2)). Romtemperaturen og isotermisk natur av dette trinnet er nyttig for praktiske DNA-lagringssystemer og for å redusere DNA-nedbrytning.Mens 20 nt er en STANDARD PCR-primer lengde, spurte vi om separasjonseffektiviteten kunne moduleres med forskjellige overhengslengder og separasjonstemperaturer. Vi designet 5 ss-dsDNAs med 5-25 nt overheng (Supplerende Fig. 3). Vi separerte deretter hver streng ved hjelp av sin spesifikke biotin-koblede oligo ved 15-55 °C. Vi observerte forbedret separasjonseffektivitet for lengre oligos (20mers og 25mers) og ved lavere temperaturer (15 °C Og 25 °C, Supplerende Fig. 3b). Dette var i samsvar med en termodynamisk analyse ved Hjelp Av Oligonukleotid Egenskaper Kalkulator (Supplerende Fig. 3c, Metoder, Eqs. (3)–(5))28,29,30.
DORIS øker tetthet og kapasitetsgrenser
en potensiell fordel ved romtemperatur separasjoner av filer er at de dobbeltstrengede delene av ss-dsdnaene forblir glødet sammen og kan blokkere uønsket oligo-binding til lignende sekvenser i data nyttelastområdene. Data nyttelastområdet er flertallet av sekvensen i ss-dsdna som inneholder den lagrede informasjonen. For å teste denne hypotesen opprettet vi to ss-dsDNAs(Fig. 2c). En ss-dsDNA hadde et overheng som bundet oligo A ‘og et internt bindingssted for oligo B’. Vi eksperimentelt bekreftet at VED Å bruke DORIS, bare oligo A’ men ikke oligo B’ kunne skille ut strengen. TIL sammenligning smelter PCR-baserte systemer dsdna i hver syklus, slik at primere kan binde av målet i data nyttelasten. SOM forventet, da PCR ble brukt, bundet både oligo a’ og oligo B’, med oligo B ‘ som produserte uønskede avkortede produkter. Den andre strengen vi testet hadde et internt bindingssted og overheng som begge var komplementære til oligo C’. Vi viste at ved HJELP AV DORIS, oligo C’ ga bare full lengde tråd. I kontrast, ved BRUK AV PCR, skapte oligo C ‘ både full lengde og avkortede tråder.Vi spurte deretter hvilke implikasjoner DENNE blokkeringsegenskapen TIL DORIS hadde for DNA-basert informasjonslagring. Etter hvert som databaser øker i størrelse, øker intuitivt sannsynligheten for sekvenser som er identiske med adressesekvenser (enten overheng for DORIS eller primersteder FOR PCR) som vises i data nyttelastregioner. MED DORIS er dette ikke et problem som oligos er blokkert fra å binde dsdna data nyttelast regioner. MEN I PCR binder primere disse data nyttelastområdene, så tidligere tilnærminger har utviklet kodingsalgoritmer som begrenser primersekvenser (adresser) fra overlapping med en identisk eller lignende sekvens i datalastene11,12, som vanligvis unngår Hammingavstander innenfor ~<6. Dette reduserer iboende enten tettheten som databaser kan kodes på grunn av restriksjoner på data nyttelast sekvens plass, eller deres kapasitet på grunn av en reduksjon i antall unike primer sekvenser som kan brukes. Tetthet er mengden informasjon lagret per nt (Eq. (6)), og det avtar som koding restriksjoner er plassert begrense hva sekvenser kan brukes i nyttelast regionen (lavere mangfold sekvens plass), mens kapasitet er den totale mengden av informasjon som kan lagres i et system (Eq. (7)) og er avhengig av antall adresser som er tilgjengelige da de dikterer antall filer som kan lagres.
for å vise disse relasjonene kvantitativt, er det for øyeblikket vanskelig å analytisk løse for eller omfattende beregne antall tilgjengelige adresser som ikke samhandler med data nyttelastregionen, selv for databaser med moderat størrelse. Derfor utførte Vi Monte Carlo-simuleringer for å estimere det totale antall adresser og totale kapasiteter som kunne oppnås. Adressesekvenser var (PCR) eller IKKE (DORIS) ekskludert hvis de dukket opp i data nyttelast regioner av en database med 109 distinkte DNA-tråder (Fig. 2d, Metoder). For å forenkle analysen brukte vi beregningskodeord for å kode data nyttelastregionen. Hvert kodeord er en distinkt nt-sekvens og inneholder en byte (B) av digital informasjon. Data nyttelastområdet kan gjøres mer informasjon tett ved å redusere størrelsen på kodeordene slik at flere kodeord (og byte) passer innenfor hver fast lengde tråd. Avviket er at mindre kodeord også vil øke sekvensmangfoldet av strengene (antall mulige distinkte sekvenser per strenglengde) på grunn av flere kodeord-kodeordkryss per streng. Dette øker sjansen for at lignende sekvenser vises i nyttelasten som er i konflikt med adressesekvenser.
simuleringen vurderte om adressesekvenser ville være i konflikt med noen sekvenser i nyttelasten. MEN FOR DORIS, selv om adressesekvenser var i konflikt med nyttelasten, ble disse adressene tillatt. Simuleringen viste derfor at etter hvert som nyttelast informasjonstettheten ble økt ved å krympe kodeord lengde, antall tilgjengelige adresser ikke endres FOR DORIS som ingen restriksjoner ble plassert på andre adresser enn at de ikke fikk lov til å være lik andre adresser (Fig. 2d, venstre, rosa). Også som forventet, som nyttelast informasjon tetthet økt, databasen kapasiteten økt monotont som antall fil adresser forble den samme som gjorde det totale antall tråder per fil(Fig. 2d, høyre, rosa). I MOTSETNING TIL PCR, adresser som dukket opp i noen data nyttelast sekvens ble ekskludert; resultatet var at økende nyttelast informasjon tetthet i utgangspunktet gitt en mindre fordel for total kapasitet (Fig. 2d, høyre, blå), men til slutt førte til en katastrofal nedgang i kapasitet som antall adresser som ikke er i konflikt med noen nyttelast sekvens raskt falt til null (Fig. 2d, venstre, blå). Mens det er mulig å øke antall distinkte tråder per adresse (dvs., informasjon per fil) for å gjøre opp for tap av adresser, vil dette resultere i filer for store til å bli sekvensert og dekodet i en enkelt sekvensering run17. Det er også viktig å merke seg at våre simuleringer var basert på svært konservative kodeordtettheter og en databasestørrelse på bare 109 DNA-tråder, mens fremtidige lagringssystemer sannsynligvis vil overstige 1012 tråder eller større. Etter hvert som databasetettheter og DNA-sekvensrom øker, vil antall adresser som er tilgjengelige FOR PCR-baserte systemer, falle enda lenger, MENS DORIS vil være upåvirket. DERFOR kan de teoretiske kapasitets-og tetthetsforbedringene DORIS gir, være størrelsesordener større enn det som er estimert i våre simuleringer. VIDERE forenkler DORIS adressedesign sterkt; utforming av sett med ortogonale adresser for PCR-baserte systemer som ikke interagerer med data nyttelastsekvenser, vil raskt bli beregningsmessig ugjennomtrengelig ved store databasestørrelser. Oppsummert kan en database bestående av ss-dsdna effektivt opprettes i en-pot-reaksjoner, og ssDNA-overheng letter en ikke-PCR-basert separasjonsmetode som forbedrer adressespesifisitet og øker teoretiske databasetettheter og kapasiteter.
DORIS muliggjør repeterbar filtilgang
et sentralt krav, men en stor utfordring for tekniske dynamiske egenskaper i lagringssystemer er gjenbrukbarheten av systemet. I dette arbeidet tok vi inspirasjon fra naturlige biologiske systemer hvor informasjon gjentatte ganger nås fra en enkelt permanent kopi av genomisk DNA gjennom transkripsjonsprosessen. Som vist I Fig. 3a, dynamisk tilgang I DORIS starter ved å fysisk skille ut en fil av interesse (ss-dsDNAs som deler samme overheng adresse) ved hjelp av biotin-linked oligos og streptavidin-basert magnetisk separasjon, in vitro transkribere (IVT) DNA TIL RNA31, returnere filen til databasen, og reverse-transkribere RNA til cDNA for nedstrøms analyse eller sekvensering.
Vi implementerte dette systemet med tre forskjellige ss-dsdnaer (A, B og C) som samlet representerer en tre-fildatabase, og vi fikk tilgang til fil A med en biotinylert oligo A ‘(Fig. 3b & Utfyllende Fig. 4). Vi målte deretter beløpene og sammensetningene av» beholdt database «(lys skygge) og» beholdt fil » (mørk skygge) av qPCR (Eq. (8)). Den beholdte databasen hadde høyere nivåer av filer B og C sammenlignet Med A, da noen av fil a-strengene ble fjernet i magnetisk separasjon. Den beholdte filen inneholdt for det meste fil a-tråder, med minimal B eller C. den beste netto totale mengden fil A gjenopprettet fra den beholdte databasen og beholdt fil var omtrent 90% av det som opprinnelig var i databasen. Den høye retensjonshastigheten til fil A foreslo at en fil kunne nås flere ganger. Vi testet dette ved gjentatte ganger å få tilgang til fil a fem ganger, og målt mengder og sammensetninger av fil A, B og C i databasen etter hver tilgang (Fig. 3c & Utfyllende Fig. 4c). Som forventet ble de totale mengdene av fil B Og C opprettholdt på relativt stabile nivåer i databasen. Omtrent 50% av fil a tråder forble etter fem tilganger. De praktiske implikasjonene FOR DNA-lagringssystemer er at bare 2 kopier av hver distinkt sekvens er nødvendig i den første databasen for hver 5 ganger den er tilgjengelig (ignorerer effekten av strandfordelinger). Dette er en forbedring I FORHOLD TIL PCR-basert filtilgang der små alikvoter av databasen er tatt og forsterket. I dette tilfellet er det nødvendig med en kopi av hver distinkt sekvens for hver tilgang; videre, i motsetning TIL I DORIS, vil alle de andre databasefilene bli tilsvarende redusert i overflod, selv om de ikke ble åpnet. DERMED KAN DORIS forlenge levetiden TIL DNA-databaser og tillate hyppigere tilgang for den samme totale MASSEN AV DNA syntetisert.
vi spurte deretter HVORDAN IVT-reaksjonen kan påvirke databasestabiliteten, da den utføres ved en forhøyet temperatur på 37 °C og kan forringe ss-dsDNA. Mens beholdt databasen ikke er utsatt FOR IVT, åpnes filen, og mengden av ss – dsdna beholdt kan påvirkes av LENGDEN AV IVT. Faktisk, mens tilstedeværelsen AV RNA-polymerase selv ikke hadde noen effekt på den beholdte filen, reduserte LENGDEN AV IVT-tid mengden beholdt fil (Fig. 3b & Utfyllende Fig. 4a). Interessant, reannealing beholdt filen på 45 °C og tillater det å kjøle seg tilbake til romtemperatur forbedret oppbevaring rate, men lengre IVT ganger fortsatt redusert samlet fil oppbevaring(Supplerende Fig. 4b). Dette antyder at noe tap skyldes filstrengene som er ubindende fra perlenbundne oligoer eller Rna som konkurrerer med ss-dsDNA, mens noe tap skyldes DNA-nedbrytning. Som en kontroll for å bekrefte at ss-dsDNA ikke forurenset cDNA generert fra det transkriberte RNA, ble cDNA oppnådd bare når RNA-polymerase ble inkludert I IVT-reaksjonen (Supplerende Fig. 4d).
vi neste fokusert på å vurdere kvaliteten OG effektiviteten AV IVT. For å sjekke OM RNA-polymerase kan skape uønskede avkortede eller langstrakte transkripsjoner, bestilte vi en serie på seks ssDNAs med en rekke lengder som spenner over 110-180 nt(Fig . 4a & Utfyllende Fig. 5). Disse ble omdannet til ss-dsDNA, transkribert TIL RNA, og omvendt transkribert og forsterket til dsDNA. Klare ensartede bånd ble sett for ss-dsDNA, RNA og dsDNA. Økende IVT tid gjorde øke utbyttet AV RNA for alle maler(Fig. 4b), selv om bare 2 h var tilstrekkelig til å oppnå klare RNA-bånd(Fig. 4c), OG IVT tid ikke påvirke lengden AV rna generert. Oppsummert kan informasjon gjentatte ganger nås fra ss-dsDNAs ved oligo-basert separasjon og IVT.
Transkripsjon kan stemmes av promoter sekvens
nyere arbeider på molekylær informasjon lagring har vist nytten av lagring av ytterligere informasjon i sammensetningen av blandinger av forskjellige molekyler, inkludert DNA32,33. DA INFORMASJONEN som DORIS får tilgang til, er avhengig Av T7 RNA-polymerasen,og Det er bevis for At t7-promotorvarianter kan påvirke transkripsjonseffektiviteten34,35,36,37, 38, spurte vi om utbyttet Av T7-basert transkripsjon kunne moduleres av spesifikke nukleotidsekvenser rundt T7-promotorområdet mens promotoren selv holdt konstant for å tillate en-pot ss-dsDNA-generasjon (Fig. 2a, b). For å løse dette spørsmålet, designet og bestilte vi 1088 distinkte 160 nt-tråder som et oligo-basseng. De første 1024 strengene inneholdt alle mulige 5 nt-variantsekvenser oppstrøms til promoter-Sekvensen (NNNNN-Promoter, N er hver av de fire nukleotidene), og de sistnevnte 64 sekvensene var alle 3 nt-variantsekvenser nedstrøms for promotoren (Promoter-NNN, Fig. 5a). Da nnnnn-nukleotidene var lokalisert i ssDNA-overhenget, spurte vi også om denne regionen var enkeltstrenget versus dobbeltstrenget, hadde noen innvirkning på relativ transkripsjonseffektivitet. Vi opprettet først ss-dsDNA ved primer extension og dsDNA ved PCR av ssDNA oligo-bassenget. Både ss – dsdna-og dsdna-databasene ble behandlet MED IVT ved 37 °C i 8 timer, etterfulgt AV RT-PCR og neste generasjons sekvensering. Korte strekkoder ble utformet i nyttelastområdet for å identifisere hvilken promotervariant hver sekvensert transkripsjon ble avledet fra.
overfloden av hver distinkte transkripsjonssekvens ble normalisert til sin overflod i den opprinnelige ss-dsDNA (Fig. 5b) eller dsDNA (Supplerende Fig. 6a) database (Eq. (9)). Et bredt og nesten kontinuerlig utvalg av normaliserte mengder ble oppnådd, noe som indikerer at denne tilnærmingen kunne utnyttes for å skape komplekse sammensetningsblandinger AV DNA i fremtiden. For å avgjøre om det kan være enkle designprinsipper som beskrev promotørens effektivitet, segmenterte vi 1088-sekvensene i kvartiler basert på transkripsjonsoverflod og importerte dataene til WebLogo tool39. Vi fant At G eller A i 5. posisjon direkte oppstrøms og C eller T i 3. posisjon direkte nedstrøms For T7-promotoren generelt resulterte i de høyeste rna-overflodene (Fig. 5c). Segmentering av dataene ved A/T-innhold viste at det var en liten preferanse for ~50% A / T-innhold oppstrøms For T7-promotoren og preferanse for generelt lavt A / T-innhold nedstrøms For T7-promotoren(Fig . 5d).dette neste generasjons sekvenseringseksperimentet ga også tillit til AT DORIS er skalerbar til store og komplekse ss-dsDNA-bassenger. Videre indikerte feilanalyse av sekvenseringslesningene ingen systematiske slettinger, avkortinger eller substitusjoner, og generelle feilnivåer var godt under DE som allerede var tilstede FRA DNA-syntese (Fig. 5e).
DORIS muliggjør filoperasjoner i lagring
mange uorganiske informasjonslagringssystemer, selv kjølelagringsarkiver, opprettholder evnen til å dynamisk manipulere filer. Lignende evner I DNA-baserte systemer vil øke verdien og konkurranseevnen betydelig. ssDNA overheng har tidligere blitt brukt til å utføre beregninger i sammenheng med toehold switches40,41,42,43, og vi derfor hypotese de kunne brukes til å implementere in-lagring filoperasjoner. Som et bevis på prinsippet implementerte vi låsing, opplåsing, omdøping og sletting av filer og viste at disse operasjonene kunne utføres ved romtemperatur(Fig. 6).
vi startet med tre-fildatabasen og testet evnen til en biotin-koblet oligo A ‘ for å binde og skille fil A ved et temperaturområde fra 25 til 75 °C (Fig . 6a, bunn, ingen lås). Omtrent 50% av fil a-tråder ble vellykket skilt fra databasen. For å låse fil A, separerte vi fil A Fra tre-fildatabasen og blandet i en lang 50 nt ssDNA (lås) som hadde en 20 nt komplementær sekvens til ssDNA overheng av fil A. med låsen på plass kunne oligo A ‘ ikke lenger skille filen bortsett fra ved høyere temperaturer over 45 °C(Fig . 6a, bunn, no-key), antagelig fordi låsen ble smeltet fra overhenget, slik at oligo a ‘ kunne konkurrere om å binde overhenget. For å låse opp filen, la vi nøkkelen som var en 50 nt ssDNA fullt komplementær til låsen. Vi testet forskjellige opplåsingstemperaturer og fant at nøkkelen var i stand til å fjerne låsen ved romtemperatur med samme effektivitet som ved høyere temperaturer. Dette skyldes sannsynligvis den lange 30 nt-holderen som presenteres av låsen, slik at nøkkelen kan pakke ut låsen Fra fil A. Vi optimaliserte også de relative molforholdene (fil A: lås: nøkkel: oligo A’ = 1: 10: 10: 15) for å minimere off-target separasjon og sikre riktig låsing. Vi observerte at temperaturen der låsen ble lagt påvirket troskap av låseprosessen. Ved 98 °C fungerte låseprosessen bra. Når låsen ble lagt til ved 25 °C, var det lekkende separasjon selv når ingen nøkkel ble lagt til (Supplerende Fig. 7). Dette kan skyldes sekundære strukturer som hindrer noen fil a-tråder fra hybridisering med låser ved lave temperaturer. Heldigvis hadde låsing ved 45 hryvnias c rimelig ytelse, og dermed unngikk behovet for å heve systemet til 98 hryvnias C. i sammenheng med et fremtidig DNA-lagringssystem kunne filer først separeres og deretter låses ved forhøyet temperatur, deretter returneres til databasen, og dermed unngår eksponering av hele databasen til forhøyede temperaturer. Hele prosessen kan ellers utføres ved romtemperatur.
vi har også implementert fil døpe og sletting. For å gi nytt navn til en fil med adresse A for å ha adresse B, blandet vi fil A med en 40 nt ssDNA som binder Til A, med det resulterende overhenget som adresse B (Fig . 6b). Vi la til alle komponenter med lignende forhold til låseprosessen (fil: gi nytt navn til oligo: få tilgang til oligo = 1: 10: 15) og gi nytt navn til oligo ble lagt til ved 45 °C. Vi testet deretter hvor mange filstrenger hver oligo A’, B’ eller C ‘kunne skille og fant at omdøpingsprosessen helt blokkerte oligos a ‘eller C’ fra å skille ut filen(Fig . 6b, nederst). Bare oligo B ‘ var i stand til å skille filen som tyder på at nesten alle tråder ble vellykket omdøpt Fra A Til B. På Samme måte omdøpte vi fil A Til C. Basert på oligos evne til å omdøpe filer med nær 100% ferdigstillelse, hypoteserte vi og fant faktisk at en kort 20 nt oligo fullt komplementær Til A kunne brukes til å fullstendig blokkere overhenget til fil A og i hovedsak slette det fra databasen(Fig . 6b, nederst). En fil kan også enkelt hentes fra en database for å slette den også. Imidlertid foreslår denne alternative formen for blokkeringsbasert sletting en måte å sikre at eventuelle gjenværende filstrenger som ikke ble helt hentet, ikke ville bli spuriously tilgjengelig i fremtiden.