Dynamic and scalable DNA-based information storage

ss-dsDNA strands can be created in one-pot

aangezien toekomstige DNA-databases zouden worden samengesteld uit meer dan 1015 verschillende strands17, vroegen we eerst of ss-dsDNA ‘ s konden worden gemaakt op een hoge doorvoer en parallelized manier. Wij bestelden 160 nucleotide (nt) single-stranded DNAs (ssDNA) met een gemeenschappelijke 23 nt opeenvolging die nt 20 van het eind 3’ (Fig. 1c en 2a, aanvullende tabel 1). Deze 23 nt-opeenvolging bevatte de polymerasepromotor van T7 RNA, maar werd ook gebruikt om een gemeenschappelijke inleiding te binden om ssDNA in ss-dsDNA om te zetten. Dit werd bereikt door verscheidene cycli van thermisch ontharden en de polymeraseuitbreiding van DNA (b.v., PCR cycli maar met slechts één inleiding). Dit resulteerde in SS-dsDNA strengen met een 20 nt overhang (Fig. 2a, boven). We geoptimaliseerd de verhouding van ssDNA primer, het aantal cycli, samen met andere milieuparameters (Fig. 2a, aanvullende Fig. 1) om de hoeveelheid ssdna geconverteerd naar ss-dsDNA te maximaliseren. We vonden dat het verminderen van de ssDNA:de inleidingsverhouding voorbij 1: 10 leidde tot een stapverandering in de hoeveelheid ss-dsDNA geproduceerd zoals gekwantificeerd door gelelektroforese (aanvullende Fig. 1 ter). We besloten om conservatief te werken met een 1:20 ssdna:primer ratio. Bij die verhouding vonden we dat slechts 4 PCR cycli nodig waren om de ssDNA om te zetten in ss-dsDNA, Zoals Gezien door de opwaartse verschuiving in de DNA gel (Fig. 2 bis).

Fig. 2: DORIS elimineert niet-specifieke interacties en verhoogt de dichtheid en capaciteit grenzen.
figure2

een enkele primer extensie creëerde ss-dsDNAs. (Bodem) 4 cycli van PCR genereerden de optimale hoeveelheid 160 nt ss-dsDNAs terwijl het minimaliseren van overtollige ssdna productie. (Rechts) het gel van DNA toonde een duidelijke verhoging van generatie van ss-dsDNAs onder 1:10 ssdna:inleidingsverhoudingen. B individuele bestanden kunnen worden gescheiden van een drie-Bestand database gemaakt door een one-pot single primer extensie. Elk dossier werd gebonden door zijn overeenkomstige biotine-verbonden oligo, gevolgd door een niet-PCR-gebaseerde scheiding gebruikend gefunctionaliseerde magnetische parels. De specificiteit van de dossierscheiding is het percentage van DNA dat door dat wordt gescheiden of dossier A, B, of C zoals gemeten door qPCR is. c (Links) PCR maar niet DORIS zal oligos toestaan om interne off-target sites te binden en ongewenste producten te produceren. (Midden) DNA-gels en (rechts) hun gekwantificeerde fluorescentie (blauw voor PCR, roze voor DORIS) toonden aan dat PCR-gebaseerde toegang resulteerde in afgeknotte en ongewenste amplicons terwijl DORIS alleen toegang kreeg tot de gewenste strengen. D (Links) Monte Carlo simulaties geschat het aantal oligos gevonden dat niet zal interageren met elkaar of de gegevens payload. 400.000 oligo ‘ s werden getest tegen verschillende dichtheidscoderingen. De x-as staat voor dichtheid (Eq. (4)), die omgekeerd gerelateerd is aan de lengte van codewoorden die worden gebruikt om discrete gegevenswaarden van één byte op te slaan. We evalueerden codewoordlengtes van 12 tot en met 4. Voor DORIS, de codering dichtheid werd niet beïnvloed omdat het niet hoeft te waken tegen ongewenste binding tussen de oligos en data payloads. (Rechts) voor PCR daalt het aantal oligos dat de payload van de gegevens niet bindt naarmate de dichtheid van de bundel toeneemt, wat betekent dat er minder bestanden kunnen worden opgeslagen, wat leidt tot een lagere totale systeemcapaciteit. Voor DORIS is de beschikbaarheid van oligos onafhankelijk van codering en neemt de capaciteit daarom toe met dichtere coderingen. Geplot waarden vertegenwoordigen het rekenkundig gemiddelde, en foutbalken vertegenwoordigen de s. d., van drie gerepliceerde bestandscheidingen of simulaties. Gelbeelden zijn representatief voor drie onafhankelijke experimenten gemeten door RT-QPCR. Brongegevens worden verstrekt als brongegevensbestand. * Capaciteiten kunnen worden beperkt door synthese-en sequentiebeperkingen die hier niet in aanmerking worden genomen.

vervolgens werd getest of deze methode kon worden gebruikt om 3 verschillende ss-dsDNA ‘ s te maken in one-pot reacties en of elke ss-dsDNA dan specifiek van het mengsel kon worden gescheiden (Fig. 2b). We mixten 3 verschillende ssDNAs “A”, “B”, en ” C ” samen, voegden de gemeenschappelijke primer toe, en voerden 4 PCR cycli uit om ss-dsDNAs (hier aangeduid als bestanden die uit slechts één unieke streng elk bestaan) te creëren. Wij gebruikten toen biotine-Verbonden 20 nt DNA oligos om elke ss-dsDNA (d.w.z., heeft elk dossier, a, B, en C een verschillende overhangopeenvolging of dossieradres) en scheidde hen uit het mengsel gebruikend magnetische parels functionalized met streptavidin. Elk van deze oligos waren in staat om specifiek te scheiden alleen hun overeenkomstige bestand zonder de andere twee (Fig. 2b, bodem, Eq. (1)). Belangrijk is dat deze scheidingsstap kan worden uitgevoerd bij kamertemperatuur (25 °C) met slechts minimale winsten waargenomen bij hogere oligo gloeien temperaturen van 35 of 45 °C (aanvullende Fig. 2, Eq. (2)). De kamertemperatuur en isothermische aard van deze stap is nuttig voor praktische DNA-opslagsystemen en voor het verminderen van degradatie van DNA.

terwijl 20 nt een standaard PCR-primerlengte is, vroegen we of de scheidingsefficiëntie kan worden gemoduleerd door verschillende overhanglengtes en scheidingstemperaturen. We ontwierpen 5 ss-dsDNAs met 5-25 nt uitsteeklengtes (aanvullende Fig. 3). We scheidden vervolgens elke streng met behulp van zijn specifieke biotine-linked oligo bij 15-55 °C. We zagen een verbeterde scheidingsefficiëntie voor langere oligo ‘ s (20mers en 25mers) en bij lagere temperaturen (15 °C en 25 °C, aanvullende Fig. 3b). Dit was in overeenstemming met een thermodynamische analyse met behulp van de Oligonucleotide eigenschappen Calculator (aanvullende Fig. 3c, methoden, MKN. (3)–(5))28,29,30.

DORIS verhoogt de dichtheids-en capaciteitslimieten

een potentieel voordeel van ruimte temperatuurscheidingen van bestanden is dat de dubbelstrengs delen van de ss-dsDNA ’s samen gegloeid blijven en ongewenste oligo-binding aan soortgelijke sequenties in de gegevens payload regio’ s kunnen blokkeren. De data payload regio is de meerderheid van de reeks in het midden van ss-dsDNAs die de opgeslagen informatie bevat. Om deze hypothese te testen, creëerden we twee ss-dsDNAs (Fig. 2c). Een ss-dsDNA had een overhang die oligo A’ en een interne bindende plaats voor oligo B ‘ Bond. We hebben experimenteel geverifieerd dat met behulp van DORIS alleen oligo A’ maar niet oligo B’ de streng kon scheiden. Voor vergelijking, smelten PCR-gebaseerde systemen dsDNAs in elke cyclus, die primers toestaan om off-target binnen de gegevens payload te binden. Zoals verwacht werden bij gebruik van PCR zowel oligo A’ als oligo B’ gebonden, waarbij oligo B’ ongewenste afgeknotte producten produceerde. De tweede streng die we hebben getest had een interne bindingsplaats en overhang die beide complementair waren aan oligo C’. We toonden aan dat met behulp van DORIS, oligo C ‘ leverde alleen de full-length strand. In tegenstelling, wanneer het gebruiken van PCR, creëerde oligo C ‘ zowel volledige lengte als afgeknotte bundels.

vervolgens vroegen we welke implicaties deze blokkerende eigenschap van DORIS had voor DNA-gebaseerde informatieopslag. Naarmate databases in omvang toenemen, neemt intuïtief de kans voor sequenties identiek aan sequenties (ofwel overhangen voor DORIS of primer sites voor PCR) verschijnen in data payload regio ‘ s toe. Met DORIS, dit is geen probleem als oligos zijn geblokkeerd voor het binden van de dsDNA data payload regio ‘ s. In PCR binden primers echter wel deze data payload regio’ s,dus eerdere benaderingen hebben coderingsalgoritmen ontwikkeld die primer sequenties (adressen) beperken tot overlapping met een identieke of soortgelijke sequentie in de data payloads11, 12, waarbij meestal Hamming afstanden worden vermeden binnen ~<6. Dit vermindert inherent ofwel de dichtheid waarmee databases kunnen worden gecodeerd als gevolg van beperkingen op data payload sequence ruimte, of hun capaciteit als gevolg van een vermindering van het aantal unieke primer sequenties die kunnen worden gebruikt. Dichtheid is de hoeveelheid informatie opgeslagen per nt (Eq. (6)), en het neemt af als codering beperkingen worden geplaatst beperken welke sequenties kunnen worden gebruikt in de payload regio (lower diversity sequence space), terwijl capaciteit is de totale hoeveelheid informatie die kan worden opgeslagen in een systeem (Eq. (7)) en is afhankelijk van het aantal beschikbare adressen aangezien zij het aantal bestanden dicteren dat kan worden opgeslagen.

om deze relaties kwantitatief weer te geven, is het momenteel moeilijk om het aantal beschikbare adressen die geen interactie hebben met het gegevensloadgebied analytisch op te lossen of volledig te berekenen, zelfs voor middelgrote databases. Daarom hebben we Monte Carlo simulaties uitgevoerd om het totale aantal adressen en de totale capaciteit te schatten. Adresopeenvolgingen waren (PCR) of niet (DORIS) uitgesloten als zij in de gebieden van de gegevenspayload van een gegevensbestand met 109 verschillende bundels van DNA verschenen (Fig. 2d, methoden). Om de analyse te vereenvoudigen, gebruikten we computationele codewoorden om de data payload regio te coderen. Elk codewoord is een aparte nt-reeks en bevat één byte (B) van digitale informatie. De data payload regio kan worden gemaakt meer informatie dicht door het verminderen van de grootte van de codewoorden, zodat meer codewoorden (en bytes) passen binnen elke vaste lengte streng. De afweging is dat kleinere codewoorden ook de sequentiediversiteit van de strengen zullen verhogen (het aantal mogelijke verschillende sequenties per streng lengte) als gevolg van meer codewoord-codewoord juncties per streng. Dit verhoogt de kans van gelijkaardige opeenvolgingen die in de lading verschijnen die met adresopvolgingen conflicteren.

De simulatie beoordeelde of adresreeksen conflicteren met sequenties in de lading. Echter, voor DORIS, zelfs als adres sequenties conflicteren met de lading, deze adressen waren toegestaan. De simulatie toonde daarom aan dat, aangezien de dichtheid van de nuttige lading werd verhoogd door het verkleinen van de lengte van het codewoord, het aantal beschikbare adressen voor DORIS niet veranderde omdat er geen beperkingen werden gesteld aan andere adressen dan dat ze niet gelijk mochten zijn aan andere adressen (Fig. 2d, links, roze). Ook zoals verwacht, als de payload informatie dichtheid toegenomen, de database capaciteit toegenomen monotoon als het aantal bestandsadressen bleef hetzelfde als het totale aantal strengen per bestand (Fig. 2d, rechts, roze). In tegenstelling, voor PCR, adressen die in om het even welke gegevens payload opeenvolging verschenen werden uitgesloten; het resultaat was dat het verhogen van payload informatiedichtheid aanvankelijk een klein voordeel aan de totale capaciteit verschafte (Fig. 2d, rechts, blauw) maar uiteindelijk leidde tot een catastrofale daling van de capaciteit als het aantal adressen dat niet conflicteerde met een payload sequentie snel gedaald tot nul (Fig. 2d, links, blauw). Hoewel het mogelijk is om het aantal verschillende strengen per adres (d.w.z., informatie per bestand) om het verlies van adressen te compenseren, zou dit resulteren in bestanden te groot om te worden gesequenced en gedecodeerd in een enkele sequencing run17. Het is ook belangrijk op te merken dat onze simulaties gebaseerd waren op zeer conservatieve codewoorddichtheden en een databasegrootte van slechts 109 DNA-strengen, terwijl toekomstige opslagsystemen waarschijnlijk 1012 strengen of groter zullen overschrijden. Naarmate de dichtheid van de database en de DNA-sequentieruimten toenemen, zal het aantal beschikbare adressen voor PCR-gebaseerde systemen nog verder dalen, terwijl DORIS onaangetast blijft. Daarom, de theoretische capaciteit en dichtheid verbeteringen DORIS biedt kan ordes van grootte groter zijn dan wat wordt geschat in onze simulaties. Bovendien, DORIS vereenvoudigt het adresontwerp sterk; het ontwerpen van sets van orthogonale adressen voor PCR-gebaseerde systemen die niet interageren met data payload sequenties zal snel computationeel onhandelbaar worden bij grote databasegrootte. Samengevat, kan een gegevensbestand dat van ss-dsDNAs wordt samengesteld efficiënt in één-pot reacties worden gecreeerd, en ssdna-overhangen vergemakkelijken een niet-PCR-gebaseerde scheidingsmethode die adresspecificiteit verbetert en theoretische gegevensbestanddichtheden en capaciteiten verhoogt.

DORIS maakt herhaalbare bestandstoegang mogelijk

een belangrijke eis, maar een grote uitdaging voor het ontwerpen van dynamische eigenschappen in opslagsystemen is de herbruikbaarheid van het systeem. In dit werk, namen we inspiratie uit natuurlijke biologische systemen waar informatie herhaaldelijk wordt benaderd vanuit een enkele permanente kopie van genomic DNA door het proces van transcriptie. Zoals in Fig. 3a, dynamische toegang in DORIS begint door fysiek te scheiden uit een dossier van belang (ss-dsDNAs delen dezelfde overhang adres) met behulp van biotine-gekoppelde oligos en streptavidin-gebaseerde magnetische scheiding, in vitro transcriberen (IVT) het DNA aan RNA31, het terugsturen van het dossier aan de database, en reverse-transcriberen van het RNA in cDNA voor downstream analyse of sequencing.

Fig. 3: DORIS bootst natuurlijke transcriptie na om herhaaldelijk toegang te krijgen tot informatie.
figure3

a Bestand A werd gescheiden met behulp van niet-PCR-gebaseerde magnetische scheiding terwijl de database werd teruggevonden (bewaarde Database) (N = 3 voor elke voorwaarde). T7-gebaseerde in vitro transcriptie werd direct uitgevoerd op het Parel-geïmmobiliseerde dossier tot 48 h om RNA te produceren. De omgekeerde transcriptie zette RNA in complementair DNA (cDNA) om terwijl het geà mmobiliseerde dossier A terug in het gegevensbestand (behouden dossier) werd vrijgegeven (n = 3 voor elke voorwaarde). b de hoeveelheid behouden database (lichte arcering) en behouden bestand (donkere arcering) nadat bestand A werd benaderd door oligo A’ werd gemeten door qPCR en uitgezet als een percentage van de oorspronkelijke hoeveelheid van elk bestand dat in de database was. De specificiteit van bestandstoegang wordt duidelijk door de afwezigheid van Bestand B en C in het behouden bestand. De aanwezigheid van de polymerase van T7 RNA (RNAP) had geen invloed op het behoud van dossier A. C-Bestand A werd herhaaldelijk 5 keer benaderd. De hoeveelheden van Bestand a, B en C in de database werden gemeten door qPCR en uitgezet als de hoeveelheid van elk bestand in de database na elke run (n = 3 voor elke voorwaarde), genormaliseerd aan de oorspronkelijke hoeveelheid van elk bestand voorafgaand aan de 1e toegang. De waarden vertegenwoordigen het rekenkundig gemiddelde. Foutbalken zijn s. d., n = het aantal gerepliceerde bestandstoegang. Brongegevens worden verstrekt als brongegevensbestand.

we implementeerden dit systeem met drie verschillende ss-dsDNA’ s (A, B, en C) die gezamenlijk een database met drie bestanden vertegenwoordigen, en we benaderden bestand A met een biotinyleerde oligo A ‘ (Fig. 3b & aanvullende Fig. 4). Vervolgens hebben we de hoeveelheden en samenstellingen van de “bewaarde database” (lichte arcering) en “bewaarde bestand” (donkere arcering) gemeten door qPCR (Eq. (8)). Het bewaarde gegevensbestand had hogere niveaus van dossiers B en C in vergelijking met A, aangezien sommige bundels van dossier A in de magnetische scheiding werden verwijderd. Het behouden bestand bevatte meestal bestand A strengen, met minimale B of C. De beste netto totale hoeveelheid bestand A hersteld van de behouden database en behouden bestand was ongeveer 90% van wat oorspronkelijk in de database. De hoge retentiesnelheid van bestand A suggereerde dat een bestand meerdere keren opnieuw kan worden geopend. We hebben dit getest door herhaaldelijk toegang te krijgen tot Bestand A vijf keer, en gemeten de hoeveelheden en samenstellingen van Bestand a, B en C in de database na elke toegang (Fig. 3c & aanvullende Fig. 4c). Zoals verwacht werden de totale hoeveelheden bestanden B en C in de database op relatief stabiele niveaus gehouden. Ongeveer 50% van de vijl een strengen bleef na vijf toegangen. De praktische implicaties voor DNA-opslagsystemen is dat er slechts 2 exemplaren van elke afzonderlijke opeenvolging nodig zijn in de initiële database voor elke 5 keer dat het wordt benaderd (het negeren van de effecten van Bundel distributies). Dit is een verbetering ten opzichte van PCR-gebaseerde bestandstoegang waar kleine aliquots van de database worden genomen en versterkt. In dit geval is één kopie van elke afzonderlijke reeks nodig voor elke toegang; bovendien zullen, in tegenstelling tot DORIS, alle andere databasebestanden op dezelfde manier in overvloed worden verminderd, zelfs als ze niet werden geopend. Zo kan DORIS de levensduur van DNA-databases verlengen en zorgen voor frequentere toegang tot dezelfde totale massa van gesynthetiseerd DNA.

vervolgens vroegen we hoe de IVT-reactie de stabiliteit van de database zou kunnen beïnvloeden, aangezien deze wordt uitgevoerd bij een verhoogde temperatuur van 37 °C en de ss-dsDNA zou kunnen degraderen. Terwijl het bewaarde gegevensbestand niet aan IVT wordt blootgesteld, is het toegangsbestand, en de hoeveelheid behouden ss-dsDNA zou door de lengte van IVT kunnen worden beà nvloed. Inderdaad, terwijl de aanwezigheid van de polymerase van RNA zelf geen effect op het behouden dossier had, verminderde de lengte van IVT tijd de hoeveelheid behouden dossier( Fig. 3b & aanvullende Fig. 4a). Interessant, reannealing het behouden dossier bij 45 °C en toestaand het om terug aan kamertemperatuur te koelen verbeterde het behoudtarief, maar langere IVT tijden nog verminderde algemene dossierbehoud (aanvullende Fig. 4b). Dit stelt voor dat één of ander verlies aan de dossierbundels toe te schrijven is die van parel-verbonden oligos of RNAs het concurreren met ss-dsDNA, terwijl één of ander verlies aan degradatie van DNA toe te schrijven is. Als controle om te bevestigen dat ss-dsDNA geen cDNA uit het getranscribeerd RNA verontreinigde, werd cDNA alleen verkregen wanneer de polymerase van RNA in de IVT-reactie werd opgenomen (aanvullende Fig. 4d).

vervolgens richtten we ons op het beoordelen van de kwaliteit en efficiëntie van het initieel beroepsonderwijs. Om te controleren of de polymerase van RNA tot ongewenste afgeknotte of langwerpige transcripten zou kunnen leiden, bestelden wij een reeks van zes ssDNAs met een waaier van lengtes die 110-180 nt overspannen (Fig. 4a & aanvullende Fig. 5). Deze werden omgezet in ss-dsDNA, getranscribeerd in RNA, en omgekeerd getranscribeerd en versterkt in dsDNA. De duidelijke eenvormige banden werden gezien voor ss-dsDNA, RNA, en dsDNA. Het verhogen van IVT tijd verhoogde de opbrengst van RNA voor alle sjablonen (Fig. 4b), hoewel slechts 2 uur voldoende was om duidelijke RNA-banden te verkrijgen (Fig. 4c), en IVT tijd beà nvloedde niet de lengte van gegenereerd RNA. Samengevat, informatie kan herhaaldelijk worden benaderd vanuit ss-dsDNAs door oligo-gebaseerde scheiding en IVT.

Fig. 4: T7-gebaseerde transcriptie produceert uniforme producten.
figure4

a zes ssdna oligos met verschillende lengtes werden ontworpen om zes ss-dsDNA templates te genereren met lengtes van respectievelijk 180 bp, 160 bp, 140 bp, 130 bp, 120 bp en 110 bp. Elke ss-dsDNA bestond uit een consensus reverse primer binding sequence, T7 primer binding sequence, forward primer binding sequence, en een payload sequence met verschillende lengtes. Deze ss-dsDNA-sjablonen werden in vitro gedurende 8 uur getranscribeerd, gevolgd door RT-PCR. Productgroottes werden onderzocht door agarose gelelektroforese. b IVT tijdscursus voor maximaal 48 uur (n = 3 repliceren IVT reacties voor elke aandoening). De hoeveelheid zowel RNA als DNA-malplaatjemolecules werden gemeten door NanoDrop en uitgezet als hun verhouding. c gelelektroforese van RNA-en dsDNA-producten na 2-48 uur IVT gevolgd door RT-PCR. Geplot waarden vertegenwoordigen het rekenkundig gemiddelde, en foutbalken vertegenwoordigen de s. d., van drie onafhankelijke IVT reacties. Gelbeelden zijn representatief voor drie onafhankelijke experimenten gemeten door RT-QPCR. Brongegevens worden verstrekt als brongegevensbestand.

transcriptie kan worden afgesteld door promotorsequentie

recente werken over de opslag van moleculaire informatie hebben het nut aangetoond van het opslaan van aanvullende informatie in de samenstelling van mengsels van afzonderlijke moleculen, waaronder DNA32,33. Aangezien de informatie waartoe DORIS toegang heeft, gebaseerd is op de T7 RNA-polymerase, en er bewijs is dat T7-promotorvarianten de transcriptie-efficientie34,35,36,37,38 kunnen beà nvloeden, vroegen we ons af of de opbrengst van T7-gebaseerde transcriptie kan worden gemoduleerd door specifieke nucleotidesequenties rond de T7-promotor regio terwijl de promotor zelf constant blijft om één pot ss-dsDNA generatie mogelijk te maken (Fig. 2a, b). Om deze vraag volledig te beantwoorden, hebben we 1088 verschillende 160 nt strengen ontworpen en besteld als een oligo pool. De eerste 1024 bundels bevatten alle mogelijke 5 nt variant sequenties stroomopwaarts aan de promotorsequentie (NNNNN-promotor, N is elk van de vier nucleotiden), en de laatste 64 sequenties waren alle 3 nt variant sequenties stroomafwaarts van de promotor (promotor-NNN, Fig. 5a). Aangezien de nucleotiden van NNNNN in de overhang van ssdna werden gevestigd, vroegen wij ook of dit gebied dat enkel strandde versus dubbel strandde om het even welke invloed op relatieve transcriptional efficiency had. We hebben eerst ss-dsDNA gemaakt door primer extension en dsDNA door PCR van de ssdna oligo pool. Zowel ss-dsDNA als dsDNA databases werden verwerkt met IVT bij 37 °C gedurende 8 uur, gevolgd door RT-PCR en next-generation sequencing. Korte barcodes werden ontworpen in de payload regio om te bepalen welke promotor variant elke sequenced transcript werd afgeleid van.

Fig. 5: T7-gebaseerde transcriptieefficiëntie kan worden gecontroleerd door opeenvolgingen te omringen.
figure5

een oligo-pool met 1088 verschillende sequenties werd ontworpen om ss-dsDNA-sjablonen te genereren. De eerste 1024 opeenvolgingen bevatten alle mogelijke combinaties van nucleotiden stroomopwaarts van de promotoropeenvolging (NNNNN-T7, waar N één van vier nucleotiden van DNA is), terwijl de laatste 64 opeenvolgingen alle mogelijke combinaties van nucleotiden stroomafwaarts aan het promotorgebied (T7-NNN) hadden. Elke opeenvolging bevatte een barcode om de opeenvolging van de variantnucleotiden te identificeren. De template ss-dsDNAs werden verwerkt met IVT gedurende 8 uur, gevolgd door RT-PCR en volgende generatie sequencing (n = 3 voor elke voorwaarde). B De efficiency van de transcriptie van beide opeenvolgingsontwerpen werd uitgezet door de gelezen telling van elke getranscribeerde bundel aan zijn overvloed in de originele bibliotheek te normaliseren. De gegevens werden georganiseerd van laagste tot hoogste genormaliseerde overvloed voor beide ontwerpen. c de sequenties werden verder verdeeld in vier kwartielen gebaseerd op genormaliseerde transcript overvloed en geanalyseerd door de weblogo tool. d de genormaliseerde abundantie van elke sequentie werd georganiseerd door A / T percentage. P-waarden tussen elke groep werden berekend met behulp van Eenrichtingsanova met Tukey–Kramer post-hoc en hier weergegeven voor statistische significantie. NNNNN-T7: p-waarden minder dan 0,01 voor vergelijkingen tussen 0% -100%, 80% -100% en 20% -80%; p-waarden minder dan 0,001 voor vergelijkingen tussen 20%-100%, 40%-80%, 40%-100%, 60%-80% en 60% -100%; T7-NNN, p waarden minder dan 0,05 voor vergelijkingen tussen 33%-100%, 0%-100% en 0% -66%. e het percentage fout voor elke DNA sequentie positie voor de originele gesynthetiseerde database (links) en getranscribeerd database (rechts). Het foutenpercentage werd berekend door het aantal fouten van een bepaald type die bij een nucleotidepositie voorkomen te delen door het totale aantal reads voor die opeenvolging (aanvullende methode). Geplot waarden vertegenwoordigen het rekenkundig gemiddelde, en foutbalken vertegenwoordigen de s. d., van drie onafhankelijke IVT-RT-PCR-NGS monsters. Brongegevens worden verstrekt als brongegevensbestand.

de abundantie van elke afzonderlijke transcript-sequentie werd genormaliseerd tot zijn abundantie in de oorspronkelijke ss-dsDNA (Fig. 5b) of dsDNA (aanvullende Fig. 6A) database (Eq. (9)). Een brede en bijna ononderbroken waaier van genormaliseerde overvloed werd verkregen, die erop wijzen dat deze benadering zou kunnen worden aangewend om complexe samenstellingsmengsels van DNA in de toekomst tot stand te brengen. Om te bepalen of er eenvoudige ontwerpprincipes zijn die de efficiëntie van de promotor beschrijven, segmenteerden we de 1088-sequenties in kwartielen op basis van transcript overvloed en importeerden we de gegevens in de weblogo-tool39. We vonden dat G Of A op de 5e positie direct stroomopwaarts en C of T op de 3e positie direct stroomafwaarts van de T7 promotor over het algemeen resulteerde in de hoogste RNA abundanties (Fig. 5c). Uit het segmenteren van de gegevens naar A / T-gehalte bleek dat er een lichte voorkeur was voor ~50% A/T-gehalte vóór de T7-promotor en een voorkeur voor over het algemeen lage a/T-gehalte na de T7-promotor (Fig. 5d).

Dit sequencing-experiment van de volgende generatie gaf ook het vertrouwen dat DORIS schaalbaar is tot grote en complexe SS-dsDNA-pools. Bovendien, fout analyse van de sequencing leest wees geen systematische schrappingen, truncaties, of substituties, en de totale fout niveaus waren ver onder die reeds aanwezig uit DNA-synthese (Fig. 5e).

DORIS maakt in-storage file operations

veel anorganische informatie-opslagsystemen, zelfs Archieven in koude opslag, behouden de mogelijkheid om bestanden dynamisch te manipuleren. Vergelijkbare capaciteiten in op DNA gebaseerde systemen zouden hun waarde en concurrentievermogen aanzienlijk verhogen. ssdna overhangen zijn eerder gebruikt om berekeningen uit te voeren in de context van toehold switches40,41,42,43, en we daarom veronderstelden ze kunnen worden gebruikt om in-storage file operaties uit te voeren. Als proof-of-principle hebben we het vergrendelen, ontgrendelen, hernoemen en verwijderen van bestanden geà mplementeerd en aangetoond dat deze bewerkingen bij kamertemperatuur konden worden uitgevoerd (Fig. 6).

Fig. 6: Toeholds inschakelen in-storage bestandsbewerkingen.
figure6

a (boven) schema voor het vergrendelen en ontgrendelen van in-storage bestandsbewerkingen. (Onder) probeert toegang te krijgen tot Bestand A door DORIS zonder vergrendeling (No-Lock), met vergrendeling maar zonder sleutel (No-Key), of met vergrendeling en sleutel toegevoegd bij verschillende temperaturen (oranje) (n = 3 voor elke voorwaarde). Het slot werd toegevoegd bij 98 °C. De sleutel werd toegevoegd bij verschillende temperaturen (oranje) en vervolgens afgekoeld tot 14 °C (N = 3 voor elke toestand). Oligo A ‘ werd toegevoegd bij verschillende toegangstemperaturen van 25, 35, 45 of 75 °C gedurende 2 min, gevolgd door een temperatuurdaling van 1 °c/min tot 25 °c (n = 3 voor elke voorwaarde). De scheidingsefficiëntie is de hoeveelheid bestand A die ten opzichte van zijn oorspronkelijke hoeveelheid wordt hersteld, zoals gemeten door qPCR. b (boven) schema van hernoemen en verwijderen operaties. Bestand A is gewijzigd door het hernoemen of verwijderen van oligos. (Onder) de voltooiing van elke operatie werd getest door te meten hoeveel van het dossier werd gescheiden door elke individuele oligo: A’, B’, of C’. Scheidingsefficiëntie is de hoeveelheid bestand A gescheiden ten opzichte van de oorspronkelijke hoeveelheid in de database, zoals gemeten door qPCR. Geen Mod (geen bestandswijziging/bewerking). Geplot waarden vertegenwoordigen het rekenkundig gemiddelde, en foutbalken vertegenwoordigen de s. d., van drie onafhankelijke replicate file operaties / scheidingen. Brongegevens worden verstrekt als brongegevensbestand.

we begonnen met de database met drie bestanden en testten de mogelijkheid van een biotine-gelinkte oligo A ‘ om bestand A te binden en te scheiden bij een temperatuurbereik van 25 tot 75 °c (Fig. 6a, bodem, Geen slot). Ongeveer 50% van het bestand A strengen werden met succes gescheiden van de database. Om dossier a te sluiten, scheidden wij dossier A van de drie-dossierdatabase en gemengd in een lange 50 nt ssdna (slot) die een 20 nt complementaire opeenvolging aan de ssdna overhang van dossier A. Met het slot op zijn plaats, oligo A’ was niet langer in staat om het dossier behalve bij hogere temperaturen boven 45 °C (Fig. 6a, bodem, no-key), vermoedelijk omdat het slot werd gesmolten van de overhang, waardoor oligo A’ om te concurreren om de overhang te binden. Om het bestand te ontgrendelen, hebben we de sleutel toegevoegd die een 50 nt ssDNA was die volledig complementair was aan het slot. We hebben verschillende ontgrendelingstemperaturen getest en vonden dat de sleutel het slot bij kamertemperatuur kon verwijderen met dezelfde efficiëntie als bij hogere temperaturen. Dit is waarschijnlijk te wijten aan de lange 30 nt toehold gepresenteerd door het slot, waardoor de sleutel om het slot uit te pakken van bestand A. We hebben ook geoptimaliseerd de relatieve Molaire verhoudingen (bestand A: lock: key: oligo A’ = 1: 10: 10: 15) om off-target scheiding te minimaliseren en te zorgen voor een goede vergrendeling. We merkten op dat de temperatuur waarbij het slot werd toegevoegd de betrouwbaarheid van het vergrendelingsproces beïnvloedde. Bij 98 °C werkte het vergrendelingsproces goed. Toen het slot werd toegevoegd bij 25 °C, was er een lekkende scheiding, zelfs wanneer er geen sleutel werd toegevoegd (aanvullende Fig. 7). Dit kan aan secundaire structuren toe te schrijven zijn die één of andere bundels van het dossier verhinderen met sloten bij lage temperaturen kruisen. Gelukkig had het vergrendelen bij 45 °C redelijke prestaties, waardoor de noodzaak werd vermeden om het systeem tot 98 °C te verheffen. in het kader van een toekomstig DNA-opslagsysteem konden bestanden eerst worden gescheiden en vervolgens bij een verhoogde temperatuur worden vergrendeld, waarna ze naar de database werden teruggestuurd, waardoor blootstelling van de gehele database aan verhoogde temperaturen werd vermeden. Het gehele proces zou anders bij kamertemperatuur kunnen worden uitgevoerd.

we hebben ook het hernoemen en verwijderen van bestanden geà mplementeerd. Om een bestand met adres a te hernoemen naar adres B, hebben we Bestand A gemengd met een 40 nt ssDNA die bindt aan A, waarbij de resulterende overhang adres B is (Fig. 6b). We hebben alle componenten met vergelijkbare verhoudingen aan het vergrendelingsproces toegevoegd (bestand: hernoemen oligo: toegang tot oligo = 1: 10: 15) en de hernoemen oligo werd toegevoegd bij 45 °C. We testten vervolgens hoeveel bestandsstrengen elke oligo A’, B’ , of C ‘kon scheiden en vonden dat het hernoemingsproces oligos A’ of C ‘ volledig blokkeerde van het scheiden van het bestand (Fig. 6b, onder). Alleen oligo B ‘ was in staat om het bestand te scheiden wat suggereert dat bijna alle strengen met succes werden hernoemd van A naar B. evenzo hebben we met succes hernoemd van bestand A naar C. Gebaseerd op het vermogen van oligos om bestanden te hernoemen met bijna 100% voltooiing, hebben we de hypothese en inderdaad gevonden dat een korte 20 nt oligo volledig complementair aan A kan worden gebruikt om de overhang van bestand A volledig te blokkeren en in wezen te verwijderen uit de database (Fig. 6b, onder). Een bestand kan ook eenvoudig uit een database worden gehaald om het ook te verwijderen. Echter, deze alternatieve vorm van blocking-gebaseerde verwijdering suggereert een manier om eventuele overgebleven bestand strengen die niet volledig werden geëxtraheerd zou niet worden spuriously geopend in de toekomst te verzekeren.

Related Posts

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *