Dynamische und skalierbare DNA-basierte Informationsspeicherung

ss-dsDNA-Stränge können effizient in einem Topf erstellt werden

Da zukünftige DNA-Datenbanken aus mehr als 1015 verschiedenen Strängen bestehen17, fragten wir zuerst, ob ss-dsDNAs mit hohem Durchsatz und parallelisiert erstellt werden könnten. Wir bestellten 160 Nukleotid (nt) einzelsträngige DNAs (ssDNA) mit einer gemeinsamen 23 nt-Sequenz, die 20 nt vom 3′-Ende eingefügt wurde (Abb. 1c und 2a, ergänzende Tabelle 1). Diese 23-nt-Sequenz enthielt den T7-RNA-Polymerase-Promotor, wurde aber auch verwendet, um einen gemeinsamen Primer zu binden, um die ssDNA auszufüllen und in eine ss-dsDNA umzuwandeln. Dies wurde durch mehrere Zyklen thermisches Annealing und DNA-Polymerase-Verlängerung erreicht (z. B. PCR-Zyklen, jedoch mit nur einem Primer). Daraus resultierten ss-dsDNA-Stränge mit 20 nt Überhang (Abb. 2a, oben). Wir optimierten das Verhältnis von ssDNA zu Primer, die Anzahl der Zyklen und andere Umgebungsparameter (Abb. 2a, Ergänzend Fig. 1) zu maximieren die menge von ssDNA umgewandelt zu ss-dsDNA. Wir fanden, dass die Verringerung der ssDNA:das Primerverhältnis von 1:10 führte zu einer schrittweisen Änderung der Menge an erzeugter ss-dsDNA, quantifiziert durch Gelelektrophorese (Ergänzende Abb. 1b). Wir haben uns entschieden, konservativ mit einem ssDNA:Primer-Verhältnis von 1:20 zu arbeiten. Bei diesem Verhältnis fanden wir heraus, dass nur 4 PCR-Zyklen erforderlich waren, um die ssDNA in ss-dsDNA umzuwandeln, wie die Aufwärtsverschiebung im DNA-Gel zeigt (Abb. 2a).

Abb. 2: DORIS eliminiert unspezifische Wechselwirkungen und erhöht Dichte- und Kapazitätsgrenzen.
figure2

eine einzelne Primer-Erweiterung erstellt ss-dsDNAs. (Unten) 4 PCR-Zyklen erzeugten die optimale Menge an 160 nt ss-dsDNAs bei gleichzeitiger Minimierung der überschüssigen ssDNA-Produktion. (Rechts) DNA-Gel zeigte einen deutlichen Anstieg der Erzeugung von ss-dsDNAs unter 1: 10 ssDNA: Primer-Verhältnisse. b Einzelne Dateien können von einer Datenbank mit drei Dateien getrennt werden, die durch eine Ein-Topf-Primererweiterung erstellt wird. Jede Datei wurde durch ihr entsprechendes Biotin-verknüpftes Oligo gebunden, gefolgt von einer nicht-PCR-basierten Trennung unter Verwendung funktionalisierter Magnetperlen. Die Dateitrennspezifität ist der Prozentsatz der DNA, der durch die Datei A, B oder C getrennt wird, gemessen durch qPCR. c (Links) PCR, aber nicht DORIS, ermöglicht es Oligos, interne Off-Target-Stellen zu binden und unerwünschte Produkte zu produzieren. (Mitte) DNA-Gele und (rechts) ihre quantifizierte Fluoreszenz (blau für PCR, pink für DORIS) zeigten, dass der PCR-basierte Zugang zu abgeschnittenen und unerwünschten Amplikons führte, während DORIS nur auf die gewünschten Stränge zuging. d (Links) Monte-Carlo-Simulationen schätzten die Anzahl der gefundenen Oligos, die nicht miteinander oder mit der Datennutzlast interagieren. 400.000 Oligos wurden gegen verschiedene Dichtekodierungen getestet. Die x-Achse repräsentiert die Dichte (Gl. (4)), die sich umgekehrt auf die Länge der Codewörter bezieht, die zum Speichern diskreter Ein-Byte-Datenwerte verwendet werden. Wir haben Codewortlängen von 12 bis 4 ausgewertet. Zum Beispiel wurde die Codierungsdichte nicht beeinflusst, da sie nicht vor unerwünschter Bindung zwischen den Oligos und Datennutzlasten schützen muss. (Rechts) Bei der PCR sinkt die Anzahl der Oligos, die die Datennutzlast nicht binden, mit zunehmender Strangdichte, was bedeutet, dass weniger Dateien gespeichert werden können, was zu einer geringeren Gesamtsystemkapazität führt. Zum Beispiel ist die Verfügbarkeit von Oligos unabhängig von der Codierung, und die Kapazität steigt daher mit dichteren Codierungen. Die aufgezeichneten Werte stellen das arithmetische Mittel und die Fehlerbalken den s.d. von drei Replikatdateitrennungen oder Simulationen dar. Gelbilder sind repräsentativ für drei unabhängige Experimente, die mit RT-QPCR gemessen wurden. Quelldaten werden als Quelldatendatei bereitgestellt. * Die Kapazitäten können durch Synthese- und Sequenzierungsbeschränkungen begrenzt sein, die hier nicht berücksichtigt sind.

Als nächstes testeten wir, ob mit dieser Methode 3 verschiedene ss-dsDNAs in Eintopfreaktionen erzeugt werden können und ob jede ss-dsDNA dann spezifisch von der Mischung getrennt werden kann (Abb. 2b). Wir mischten 3 verschiedene ssDNAs „A“, „B“ und „C“ zusammen, fügten den gemeinsamen Primer hinzu und führten 4 PCR-Zyklen durch, um die ss-dsDNAs zu erzeugen (hier als Dateien bezeichnet, die jeweils nur aus einem eindeutigen Strang bestehen). Wir verwendeten dann Biotin-verbundene 20 nt DNA oligos, um jedes ss-dsDNA zu binden (d.h., jede Datei, A, B und C hat eine eindeutige Überhangsequenz oder Dateiadresse) und trennte sie unter Verwendung von mit Streptavidin funktionalisierten Magnetkügelchen von der Mischung ab. Jedes dieser Oligos konnte spezifisch nur seine entsprechende Datei ohne die beiden anderen trennen (Abb. 2b, unten, Gl. (1)). Wichtig ist, dass dieser Trennschritt bei Raumtemperatur (25 ° C) durchgeführt werden konnte, wobei nur minimale Gewinne bei höheren Oligoglühtemperaturen von 35 oder 45 ° C beobachtet wurden (Ergänzende Abb. 2, Gl. (2)). Die Raumtemperatur und isotherme Natur dieses Schrittes ist nützlich für praktische DNA-Speichersysteme und zur Verringerung des DNA-Abbaus.

Während 20 nt eine Standard-PCR-Primerlänge ist, fragten wir, ob die Trenneffizienz durch unterschiedliche Überhanglängen und Trenntemperaturen moduliert werden könnte. Wir entwarfen 5 ss-dsDNAs mit 5-25 nt Überhängen (Ergänzende Abb. 3). Wir trennten dann jeden Strang mit seinem spezifischen Biotin-verknüpften Oligo bei 15-55 ° C. Wir beobachteten eine verbesserte Trenneffizienz für längere Oligos (20mer und 25mer) und bei niedrigeren Temperaturen (15 ° C und 25 ° C, Ergänzende Abb. 3b). Dies stimmte mit einer thermodynamischen Analyse unter Verwendung des Oligonukleotid-Eigenschaftsrechners überein (Ergänzende Abb. 3c, Methoden, Faqs. (3)–(5))28,29,30.

DORIS erhöht Dichte- und Kapazitätsgrenzen

Ein potenzieller Vorteil von Raumtemperaturtrennungen von Dateien besteht darin, dass die doppelsträngigen Teile der ss-dsDNAs zusammen getempert bleiben und unerwünschte Oligobindung an ähnliche Sequenzen in den Datennutzlastbereichen blockieren können. Die Datennutzlastregion ist der Großteil der Sequenz in der Mitte von ss-dsDNAs, die die gespeicherten Informationen enthält. Um diese Hypothese zu testen, erstellten wir zwei ss-dsDNAs (Abb. 2c). Eine ss-dsDNA hatte einen Überhang, der Oligo A‘ und eine interne Bindungsstelle für Oligo B‘ bindet. Wir haben experimentell überprüft, dass mit DORIS nur Oligo A‘, aber nicht Oligo B‘ den Strang abtrennen konnte. Zum Vergleich schmelzen PCR-basierte Systeme dsDNAs in jedem Zyklus, so dass Primer Off-Target innerhalb der Datennutzlast binden können. Erwartungsgemäß wurden bei Verwendung der PCR sowohl Oligo A‘ als auch Oligo B‘ gebunden, wobei Oligo B‘ unerwünschte truncierte Produkte erzeugte. Der zweite Strang, den wir testeten, hatte eine interne Bindungsstelle und einen Überhang, die beide zu Oligo C ‚komplementär waren. Wir zeigten, dass Oligo C‘ mit DORIS nur den Strang in voller Länge ergab. Im Gegensatz dazu erzeugte Oligo C‘ bei Verwendung der PCR sowohl Stränge in voller Länge als auch abgeschnittene Stränge.

Als nächstes fragten wir, welche Auswirkungen diese blockierende Eigenschaft von DORIS auf die DNA-basierte Informationsspeicherung hatte. Mit zunehmender Größe von Datenbanken steigt auch die Wahrscheinlichkeit, dass Sequenzen, die mit Adresssequenzen identisch sind (entweder Überhänge für DORIS oder Primerstellen für PCR), in Datennutzlastbereichen auftreten. Bei DORIS ist dies kein Problem, da Oligos daran gehindert werden, die dsDNA-Datennutzlastregionen zu binden. In der PCR binden Primer jedoch diese Datennutzlastbereiche, so dass frühere Ansätze Codierungsalgorithmen entwickelt haben, die verhindern, dass sich Primersequenzen (Adressen) mit einer identischen oder ähnlichen Sequenz in den Daten payloads11,12 überlappen, wobei typischerweise Hamming-Abstände innerhalb von ~<6 vermieden werden. Dies verringert inhärent entweder die Dichte, mit der Datenbanken aufgrund von Einschränkungen des Datennutzlastsequenzraums codiert werden können, oder ihre Kapazität aufgrund einer Verringerung der Anzahl eindeutiger Primersequenzen, die verwendet werden können. Die Dichte ist die Menge der pro nt gespeicherten Informationen (Gl. (6)), und es nimmt ab, wenn Codierungsbeschränkungen auferlegt werden, die einschränken, welche Sequenzen im Nutzlastbereich (Sequenzraum mit niedrigerer Diversität) verwendet werden können, während die Kapazität die Gesamtmenge an Informationen ist, die in einem System gespeichert werden kann (Gl. (7)) und hängt von der Anzahl der verfügbaren Adressen ab, da diese die Anzahl der Dateien bestimmen, die gespeichert werden können.Um diese Beziehungen quantitativ aufzuzeigen, ist es derzeit schwierig, die Anzahl der verfügbaren Adressen, die nicht mit dem Datennutzlastbereich interagieren, auch für Datenbanken mittlerer Größe analytisch zu lösen oder umfassend zu berechnen. Daher haben wir Monte-Carlo-Simulationen durchgeführt, um die Gesamtzahl der erreichbaren Adressen und Gesamtkapazitäten abzuschätzen. Adresssequenzen wurden (PCR) oder nicht (DORIS) ausgeschlossen, wenn sie in den Datennutzlastbereichen einer Datenbank mit 109 verschiedenen DNA-Strängen auftraten (Abb. 2d, Methoden). Um die Analyse zu vereinfachen, verwendeten wir rechnerische Codewörter, um die Datennutzlastregion zu codieren. Jedes Codewort ist eine eindeutige nt-Sequenz und enthält ein Byte (B) digitaler Informationen. Der Datennutzlastbereich kann informationsdichter gemacht werden, indem die Größe der Codewörter reduziert wird, so dass mehr Codewörter (und Bytes) in jeden Strang fester Länge passen. Der Kompromiss besteht darin, dass kleinere Codewörter auch die Sequenzvielfalt der Stränge (die Anzahl der möglichen eindeutigen Sequenzen pro Stranglänge) aufgrund von mehr Codewort-Codewort-Übergängen pro Strang erhöhen. Dies erhöht die Wahrscheinlichkeit, dass ähnliche Sequenzen in der Nutzlast erscheinen, die mit Adresssequenzen in Konflikt stehen.

Die Simulation bewertete, ob Adressensequenzen mit irgendwelchen Sequenzen in der Nutzlast in Konflikt stehen würden. Selbst wenn Adressfolgen mit der Nutzlast in Konflikt standen, waren diese Adressen beispielsweise zulässig. Die Simulation zeigte daher, dass sich die Anzahl der verfügbaren Adressen mit zunehmender Nutzdateninformationsdichte durch Verkleinerung der Codewortlänge für DORIS nicht änderte, da keine anderen Beschränkungen für Adressen festgelegt wurden, als dass sie anderen Adressen nicht ähnlich sein durften (Abb. 2d, links, rosa). Wie erwartet nahm die Datenbankkapazität mit zunehmender Nutzdateninformationsdichte monoton zu, da die Anzahl der Dateiadressen gleich blieb wie die Gesamtzahl der Stränge pro Datei (Abb. 2d, rechts, rosa). Im Gegensatz dazu wurden für die PCR Adressen, die in einer beliebigen Daten-Nutzlastsequenz auftauchten, ausgeschlossen; Das Ergebnis war, dass eine zunehmende Nutzlastinformationsdichte anfänglich einen geringen Vorteil für die Gesamtkapazität bot (Abb. 2d, rechts, blau), führte jedoch schließlich zu einem katastrophalen Kapazitätsabfall, da die Anzahl der Adressen, die nicht mit einer Nutzlastsequenz in Konflikt standen, schnell auf Null sank (Abb. 2d, links, blau). Während es möglich ist, die Anzahl der verschiedenen Stränge pro Adresse zu erhöhen (d. h. um den Verlust von Adressen auszugleichen, würde dies dazu führen, dass Dateien zu groß sind, um in einem einzigen Sequenzierungslauf sequenziert und decodiert zu werden17. Es ist auch wichtig zu beachten, dass unsere Simulationen auf sehr konservativen Codewortdichten und einer Datenbankgröße von nur 109 DNA-Strängen basierten, während zukünftige Speichersysteme wahrscheinlich 1012 Stränge oder mehr überschreiten werden. Da die Datenbankdichten und DNA-Sequenzräume zunehmen, wird die Anzahl der für PCR-basierte Systeme verfügbaren Adressen noch weiter sinken, während DORIS davon nicht betroffen ist. Daher könnten die theoretischen Kapazitäts- und Dichteverbesserungen, die DORIS liefert, um Größenordnungen größer sein als das, was in unseren Simulationen geschätzt wird. Darüber hinaus vereinfacht DORIS das Adressdesign erheblich; Das Entwerfen von Sätzen orthogonaler Adressen für PCR-basierte Systeme, die nicht mit Datennutzlastsequenzen interagieren, wird bei großen Datenbankgrößen schnell rechnerisch schwierig. Zusammenfassend lässt sich sagen, dass eine Datenbank, die aus ss-dsDNAs besteht, effizient in Eintopfreaktionen erstellt werden kann, und ssDNA-Überhänge ermöglichen eine nicht-PCR-basierte Trennmethode, die die Adressspezifität verbessert und die theoretischen Datenbankdichten und -kapazitäten erhöht.

DORIS ermöglicht wiederholbaren Dateizugriff

Eine zentrale Anforderung, aber große Herausforderung für die Entwicklung dynamischer Eigenschaften in Speichersystemen ist die Wiederverwendbarkeit des Systems. In dieser Arbeit haben wir uns von natürlichen biologischen Systemen inspirieren lassen, in denen Informationen wiederholt von einer einzigen permanenten Kopie der genomischen DNA durch den Prozess der Transkription abgerufen werden. Wie in Fig. 3a, dynamischer Zugriff in DORIS beginnt mit der physikalischen Trennung einer interessierenden Datei (ss-dsDNAs mit derselben Überhangadresse) unter Verwendung von Biotin-verknüpften Oligos und Streptavidin-basierter magnetischer Trennung, in vitro Transkribieren (IVT) der DNA zu RNA31, Rückgabe der Datei an die Datenbank und Reverse-Transkription der RNA in cDNA zur nachgelagerten Analyse oder Sequenzierung.

Abb. 3: DORIS ahmt die natürliche Transkription nach, um wiederholt auf Informationen zuzugreifen.
figure3

Eine Datei A wurde unter Verwendung einer nicht-PCR-basierten magnetischen Trennung getrennt, während die Datenbank wiederhergestellt wurde (beibehaltene Datenbank) (n = 3 für jede Bedingung). Die T7-basierte In-vitro-Transkription wurde direkt an der Bead-immobilisierten Datei für bis zu 48 h durchgeführt, um RNA zu erzeugen. Die reverse Transkription wandelte die RNA in komplementäre DNA (cDNA) um, während die immobilisierte Datei A wieder in die Datenbank freigegeben wurde (beibehaltene Datei) (n = 3 für jede Bedingung). b Die Menge der zurückgehaltenen Datenbank (helle Schattierung) und der zurückgehaltenen Datei (dunkle Schattierung) nach dem Zugriff von Oligo A‘ auf Datei A wurde mit qPCR gemessen und als Prozentsatz der ursprünglichen Menge jeder Datei in der Datenbank aufgetragen. Die Spezifität des Dateizugriffs wird durch das Fehlen der Dateien B und C in der beibehaltenen Datei deutlich. Das Vorhandensein von T7-RNA-Polymerase (RNAP) hatte keinen Einfluss auf die Retention von Datei A. c Datei A wurde wiederholt 5 mal aufgerufen. Die Mengen der Datei A, B und C in der Datenbank wurden durch qPCR gemessen und als die Menge jeder Datei in der Datenbank nach jedem Lauf (n = 3 für jede Bedingung) aufgetragen, normalisiert auf die ursprüngliche Menge jeder Datei vor dem 1. Zugriff. Werte stellen das arithmetische Mittel dar. Fehlerbalken sind s.d., n = die Anzahl der Replikatdateizugriffe. Quelldaten werden als Quelldatendatei bereitgestellt.

Wir implementierten dieses System mit drei verschiedenen ss-dsDNAs (A, B und C), die zusammen eine Datenbank mit drei Dateien darstellen, und wir griffen auf Datei A mit einem biotinylierten Oligo A‘ (Abb. 3b & Ergänzende Abb. 4). Wir haben dann die Mengen und Zusammensetzungen der „beibehaltenen Datenbank“ (helle Schattierung) und der „beibehaltenen Datei“ (dunkle Schattierung) durch qPCR (Gl. (8)). Die beibehaltene Datenbank hatte im Vergleich zu A höhere Ebenen der Dateien B und C, da einige der Datei-A-Stränge bei der magnetischen Trennung entfernt wurden. Die beste Nettogesamtmenge an Datei A, die aus der beibehaltenen Datenbank und der beibehaltenen Datei wiederhergestellt wurde, betrug ungefähr 90% dessen, was ursprünglich in der Datenbank enthalten war. Die hohe Retentionsrate von Datei A deutete darauf hin, dass mehrmals auf eine Datei zugegriffen werden konnte. Wir haben dies getestet, indem wir fünfmal wiederholt auf Datei A zugegriffen haben, und nach jedem Zugriff die Mengen und Zusammensetzungen der Dateien A, B und C in der Datenbank gemessen (Abb. 3c & Ergänzende Abb. 4c). Wie erwartet wurden die Gesamtmengen der Dateien B und C in der Datenbank auf einem relativ stabilen Niveau gehalten. Ungefähr 50% der Datei-A-Stränge blieben nach fünf Zugriffen erhalten. Die praktischen Implikationen für DNA-Speichersysteme sind, dass nur 2 Kopien jeder einzelnen Sequenz in der anfänglichen Datenbank für alle 5 Male benötigt werden, auf die zugegriffen wird (wobei die Auswirkungen der Strangverteilungen ignoriert werden). Dies ist eine Verbesserung gegenüber dem PCR-basierten Dateizugriff, bei dem kleine Aliquots der Datenbank entnommen und verstärkt werden. In diesem Fall wird für jeden Zugriff eine Kopie jeder eindeutigen Sequenz benötigt; darüber hinaus werden im Gegensatz zu DORIS alle anderen Datenbankdateien in ähnlicher Weise im Überfluss reduziert, auch wenn nicht darauf zugegriffen wurde. Somit kann DORIS die Lebensdauer von DNA-Datenbanken verlängern und einen häufigeren Zugriff für die gleiche Gesamtmasse der synthetisierten DNA ermöglichen.Als nächstes fragten wir, wie sich die IVT-Reaktion auf die Datenbankstabilität auswirken könnte, da sie bei einer erhöhten Temperatur von 37 ° C durchgeführt wird und die ss-dsDNA abbauen könnte. Während die beibehaltene Datenbank dem IVT nicht ausgesetzt ist, ist die Datei, auf die zugegriffen wird, und die Menge an ss-dsDNA, die beibehalten wird, kann durch die Länge des IVT beeinflusst werden. Während das Vorhandensein von RNA-Polymerase selbst keinen Einfluss auf die zurückgehaltene Datei hatte, verringerte die Länge der IVT-Zeit die Menge der zurückgehaltenen Datei (Abb. 3b & Ergänzende Abb. 4a). Interessanterweise verbesserte das erneute Anheizen der zurückgehaltenen Feile bei 45 ° C und das Abkühlen auf Raumtemperatur die Retentionsrate, aber längere IVT-Zeiten reduzierten immer noch die Gesamtretention der Feile (Ergänzende Abb. 4b). Dies deutet darauf hin, dass ein gewisser Verlust auf die DNA-Stränge zurückzuführen ist, die sich von den perlengebundenen Oligos oder RNAs lösen, die mit ss-dsDNA konkurrieren, während ein gewisser Verlust auf DNA-Abbau zurückzuführen ist. Als Kontrolle, um zu bestätigen, dass ss-dsDNA keine aus der transkribierten RNA erzeugte cDNA kontaminierte, wurde cDNA nur erhalten, wenn RNA-Polymerase in die IVT-Reaktion einbezogen wurde (Ergänzende Abb. 4d).

Als nächstes konzentrierten wir uns auf die Bewertung der Qualität und Effizienz der IVT. Um zu überprüfen, ob die RNA-Polymerase unerwünschte verkürzte oder verlängerte Transkripte erzeugt, bestellten wir eine Reihe von sechs ssDNAs mit einem Längenbereich von 110-180 nt (Abb. 4a & Ergänzende Abb. 5). Diese wurden in ss-dsDNA umgewandelt, in RNA transkribiert und reverse transkribiert und in dsDNA amplifiziert. Klare einheitliche Banden wurden für die ss-dsDNA, RNA und dsDNA gesehen. Eine Erhöhung der IVT-Zeit erhöhte die Ausbeute an RNA für alle Templates (Abb. 4b), obwohl bereits 2 h ausreichten, um klare RNA-Banden zu erhalten (Fig. 4c), und die IVT-Zeit beeinflusste die Länge der erzeugten RNA nicht. Zusammenfassend kann durch oligobasierte Trennung und IVT wiederholt auf Informationen aus ss-dsDNAs zugegriffen werden.

Abb. 4: T7-basierte Transkription erzeugt einheitlich große Produkte.
figure4

Sechs ssDNA-Oligos mit unterschiedlichen Längen wurden entworfen, um sechs ss-dsDNA-Templates mit Längen von 180 bp, 160 bp, 140 bp, 130 bp, 120 bp bzw. 110 bp zu erzeugen. Jede ss-dsDNA umfasste eine Konsensus-Reverse-Primer-Bindungssequenz, eine T7-Primer-Bindungssequenz, eine Vorwärts-Primer-Bindungssequenz und eine Nutzlastsequenz mit unterschiedlichen Längen. Diese ss-dsDNA-Templates wurden in vitro für 8 h transkribiert, gefolgt von RT-PCR. Die Produktgrößen wurden durch Agarosegelelektrophorese untersucht. b IVT-Zeitverlauf für bis zu 48 h (n = 3 replizieren IVT-Reaktionen für jede Bedingung). Die Menge von RNS- und DNA-Schablonenmolekülen wurden durch NanoDrop gemessen und als ihr Verhältnis aufgetragen. c Gelelektrophorese von RNA- und dsDNA-Produkten nach 2-48 h IVT gefolgt von RT-PCR. Die aufgezeichneten Werte stellen das arithmetische Mittel und die Fehlerbalken den s.d. von drei unabhängigen IVT-Reaktionen dar. Gelbilder sind repräsentativ für drei unabhängige Experimente, die mit RT-QPCR gemessen wurden. Quelldaten werden als Quelldatendatei bereitgestellt.

Die Transkription kann durch die Promotorsequenz abgestimmt werden

Jüngste Arbeiten zur molekularen Informationsspeicherung haben gezeigt, wie nützlich es ist, zusätzliche Informationen in der Zusammensetzung von Mischungen verschiedener Moleküle, einschließlich DNA32,33, zu speichern. Da die Informationen, auf die DORIS zugreift, von der T7-RNA-Polymerase abhängen und es Hinweise darauf gibt, dass T7-Promotorvarianten die Transkriptionseffizienz beeinflussen können34,35,36,37,38, fragten wir, ob die Ausbeute an T7-basierter Transkription durch spezifische Nukleotidsequenzen um die T7-Promotorregion moduliert werden könnte, während der Promotor selbst konstant gehalten wird, um die SS-dsDNA-Generierung in einem Topf zu ermöglichen (Abb. 2a, b). Um diese Frage umfassend zu beantworten, haben wir 1088 verschiedene 160 nt-Stränge als Oligo-Pool entworfen und bestellt. Die ersten 1024 Stränge enthielten alle möglichen 5 nt-Varianten-Sequenzen stromaufwärts der Promotorsequenz (NNNNN-Promotor, N ist jedes der vier Nukleotide), und die letzteren 64 Sequenzen waren alle 3 nt-Varianten-Sequenzen stromabwärts des Promotors (Promotor-NNN, Fig. 5a). Da sich die NNNNN-Nukleotide im ssDNA-Überhang befanden, fragten wir auch, ob diese Region, die einzelsträngig gegenüber doppelsträngig ist, einen Einfluss auf die relative Transkriptionseffizienz hat. Wir haben zuerst ss-dsDNA durch Primerverlängerung und dsDNA durch PCR des ssDNA-Oligopools erzeugt. Sowohl ss-dsDNA- als auch dsDNA-Datenbanken wurden mit IVT bei 37 ° C für 8 h verarbeitet, gefolgt von RT-PCR und Next-Generation-Sequenzierung. In der Nutzlastregion wurden kurze Barcodes entworfen, um zu identifizieren, von welcher Promotorvariante jedes sequenzierte Transkript abgeleitet wurde.

Abb. 5: T7-basierte Transkriptionseffizienz kann durch umgebende Sequenzen gesteuert werden.
figure5

a Ein Oligopool mit 1088 verschiedenen Sequenzen wurde entwickelt, um ss-dsDNA-Templates zu generieren. Die ersten 1024 Sequenzen enthielten alle möglichen Kombinationen von Nukleotiden stromaufwärts der Promotorsequenz (NNNNN-T7, wobei N eines von vier DNA-Nukleotiden ist), während die letzteren 64 Sequenzen alle möglichen Kombinationen von Nukleotiden stromabwärts der Promotorregion aufwiesen (T7-NNN). Jede Sequenz enthielt einen Barcode, um die Sequenz der varianten Nukleotide zu identifizieren. Die Template-ss-dsDNAs wurden 8 h lang mit IVT verarbeitet, gefolgt von RT-PCR und Next-Generation-Sequenzierung (n = 3 für jede Bedingung). die Transkriptionseffizienzen beider Sequenzdesigns wurden durch Normalisieren der Leseanzahl jedes transkribierten Strangs auf seine Häufigkeit in der ursprünglichen Bibliothek aufgetragen. Die Daten wurden für beide Designs von der niedrigsten zur höchsten normalisierten Häufigkeit organisiert. c Die Sequenzen wurden basierend auf der normalisierten Transkripthäufigkeit weiter in vier Quartile unterteilt und mit dem WebLogo-Tool analysiert. d Die normalisierte Häufigkeit jeder Sequenz wurde durch A / T-Prozentsatz organisiert. P-Werte zwischen jeder Gruppe wurden unter Verwendung von Einweg-ANOVA mit Tukey–Kramer Post-hoc berechnet und hier für statistische Signifikanz aufgelistet. NNNNN-T7: p-Werte kleiner als 0,01 für Vergleiche zwischen 0%-100%, 80%-100% und 20%-80%; p-Werte kleiner als 0,001 für Vergleiche zwischen 20%-100%, 40%-80%, 40%-100%, 60%-80% und 60%-100%; T7-NNN, p-Werte kleiner als 0,05 für Vergleiche zwischen 33%-100%, 0%-100% und 0%-66%. e Der prozentuale Fehler für jede DNA-Sequenzposition für die ursprüngliche synthetisierte Datenbank (links) und die transkribierte Datenbank (rechts). Die Fehlerrate wurde berechnet, indem die Anzahl der an einer Nukleotidposition auftretenden Fehler eines bestimmten Typs durch die Gesamtzahl der Lesevorgänge für diese Sequenz dividiert wurde (Ergänzungsmethode). Die aufgezeichneten Werte stellen das arithmetische Mittel und die Fehlerbalken den s.d. von drei unabhängigen IVT-RT-PCR-NGS-Proben dar. Quelldaten werden als Quelldatendatei bereitgestellt.

Die Häufigkeit jeder einzelnen Transkriptsequenz wurde auf ihre Häufigkeit in der ursprünglichen ss-dsDNA normalisiert (Abb. 5b) oder dsDNA (Ergänzende Fig. 6a) Datenbank (Gl. (9)). Es wurde ein breiter und nahezu kontinuierlicher Bereich normalisierter Abundanzen erhalten, was darauf hindeutet, dass dieser Ansatz genutzt werden könnte, um in Zukunft komplexe Zusammensetzungsmischungen von DNA zu erzeugen. Um festzustellen, ob es einfache Designprinzipien gibt, die die Promotoreffizienz beschreiben, segmentierten wir die 1088 Sequenzen basierend auf der Transkripthäufigkeit in Quartile und importierten die Daten in das WebLogo-Tool39. Wir fanden heraus, dass G oder A an der 5. Position direkt stromaufwärts und C oder T an der 3. Position direkt stromabwärts des T7-Promotors im Allgemeinen zu den höchsten RNA-Häufigkeiten führten (Abb. 5c). Die Segmentierung der Daten nach A / T-Gehalt zeigte, dass es eine leichte Präferenz für ~ 50% A / T-Gehalt stromaufwärts des T7-Promotors und eine Präferenz für einen insgesamt niedrigen A / T-Gehalt stromabwärts des T7-Promotors gab (Abb. 5d).

Dieses Sequenzierungsexperiment der nächsten Generation lieferte auch die Gewissheit, dass DORIS auf große und komplexe ss-dsDNA-Pools skalierbar ist. Darüber hinaus ergab die Fehleranalyse der Sequenzierungslesungen keine systematischen Deletionen, Kürzungen oder Substitutionen, und die Gesamtfehlerniveaus lagen deutlich unter denen, die bereits bei der DNA-Synthese vorhanden waren (Abb. 5e).

DORIS ermöglicht In-Storage-Dateioperationen

Viele anorganische Informationsspeichersysteme, sogar Cold-Storage-Archive, behalten die Fähigkeit, Dateien dynamisch zu manipulieren. Ähnliche Fähigkeiten in DNA-basierten Systemen würden ihren Wert und ihre Wettbewerbsfähigkeit erheblich steigern. ssDNA-Überhänge wurden zuvor verwendet, um Berechnungen im Kontext von Toehold-Switches auszuführen40,41,42,43, und wir stellten daher die Hypothese auf, dass sie zur Implementierung von Dateioperationen im Speicher verwendet werden könnten. Als Proof-of-Principle haben wir das Sperren, Entsperren, Umbenennen und Löschen von Dateien implementiert und gezeigt, dass diese Vorgänge bei Raumtemperatur ausgeführt werden können (Abb. 6).

Abb. 6: Toeholds Dateivorgänge im Speicher aktivieren.
figure6

ein (Oben) Schema zum Sperren und Entsperren von Dateivorgängen im Speicher. (Unten) Versucht, standardmäßig auf Datei A zuzugreifen, ohne zu sperren (No-Lock), mit Sperren, aber ohne Schlüssel (No-Key) oder mit Sperren und Schlüssel bei unterschiedlichen Temperaturen (orange) (n = 3 für jede Bedingung). Das Schloss wurde bei 98 ° C hinzugefügt. Der Schlüssel wurde bei verschiedenen Temperaturen (orange) hinzugefügt und dann auf 14 ° C abgekühlt (n = 3 für jede Bedingung). Oligo A‘ wurde bei verschiedenen Zugangstemperaturen von 25, 35, 45 oder 75 ° C für 2 min zugegeben, gefolgt von einem Temperaturabfall von 1 ° C / min auf 25 ° C (n = 3 für jede Bedingung). Die Trenneffizienz ist die Menge an Datei, die A im Verhältnis zu seiner ursprünglichen Menge zurückgewonnen hat, gemessen mit qPCR. b (Oben) Schema der Umbenennungs- und Löschvorgänge. Datei A wurde durch Umbenennen oder Löschen von Oligos geändert. (Unten) Der Abschluss jeder Operation wurde getestet, indem gemessen wurde, wie viel von der Datei durch jedes einzelne Oligo getrennt war: A ‚, B‘ oder C‘. Die Trenneffizienz ist die Menge der Datei, die A im Verhältnis zu ihrer ursprünglichen Menge in der Datenbank getrennt hat, gemessen mit qPCR. Kein Mod (Keine Dateiänderung / Operation). Die aufgezeichneten Werte stellen das arithmetische Mittel und die Fehlerbalken den s.d. von drei unabhängigen Replikatdateioperationen / -trennungen dar. Quelldaten werden als Quelldatendatei bereitgestellt.

Wir begannen mit der Datenbank mit drei Dateien und testeten die Fähigkeit eines Biotin-verknüpften Oligos A‘, Datei A bei einem Temperaturbereich von 25 bis 75 ° C zu binden und zu trennen (Abb. 6a, unten, kein Schloss). Ungefähr 50% der Datei-A-Stränge wurden erfolgreich von der Datenbank getrennt. Um Datei A zu sperren, trennten wir Datei A von der Datenbank mit drei Dateien und mischten eine lange 50-nt-ssDNA (Sperre) ein, die eine komplementäre Sequenz von 20 nt zum ssDNA-Überhang von Datei A aufwies. 6a, unten, ohne Schlüssel), vermutlich weil das Schloss aus dem Überhang geschmolzen war, so dass Oligo A ‚ konkurrieren konnte, um den Überhang zu binden. Um die Datei zu entsperren, fügten wir den Schlüssel hinzu, der eine 50 nt ssDNA war, die vollständig zum Schloss komplementär war. Wir haben verschiedene Entriegelungstemperaturen getestet und festgestellt, dass der Schlüssel das Schloss bei Raumtemperatur mit der gleichen Effizienz wie bei höheren Temperaturen entfernen konnte. Dies ist wahrscheinlich auf den langen 30-nt-Zehenhalt des Schlosses zurückzuführen, der es dem Schlüssel ermöglicht, das Schloss aus Datei A zu entpacken. Wir haben auch die relativen Molverhältnisse optimiert (Datei A: Schloss: Schlüssel: oligo A‘ = 1: 10: 10: 15) um die Trennung vom Ziel zu minimieren und eine ordnungsgemäße Verriegelung sicherzustellen. Wir haben beobachtet, dass die Temperatur, bei der das Schloss hinzugefügt wurde, die Genauigkeit des Verriegelungsprozesses beeinflusste. Bei 98 ° C funktionierte der Verriegelungsprozess gut. Wenn das Schloss bei 25 ° C hinzugefügt wurde, gab es eine undichte Trennung, selbst wenn kein Schlüssel hinzugefügt wurde (Ergänzende Abb. 7). Dies kann auf Sekundärstrukturen zurückzuführen sein, die verhindern, dass einige File-A-Stränge bei niedrigen Temperaturen mit Locken hybridisieren. Glücklicherweise hatte das Sperren bei 45 ° C eine vernünftige Leistung, wodurch die Notwendigkeit vermieden wurde, das System auf 98 ° C zu erhöhen. Im Rahmen eines zukünftigen DNA-Speichersystems konnten Dateien zuerst getrennt, dann bei erhöhter Temperatur gesperrt und dann in die Datenbank zurückgegeben werden, wodurch eine Exposition der gesamten Datenbank gegenüber erhöhten Temperaturen vermieden wurde. Der gesamte Prozess könnte ansonsten bei Raumtemperatur durchgeführt werden.

Wir haben auch das Umbenennen und Löschen von Dateien implementiert. Um eine Datei mit Adresse A in Adresse B umzubenennen, mischen wir Datei A mit einer 40 nt ssDNA, die an A bindet, wobei der resultierende Überhang Adresse B ist (Abb. 6b). Wir fügten alle Komponenten in ähnlichen Verhältnissen wie beim Verriegelungsprozess hinzu (Datei: Umbenennen von Oligo: Zugriff auf oligo = 1: 10: 15) und das Umbenennen von Oligo wurde bei 45 ° C hinzugefügt. Wir testeten dann, wie viele Dateistränge jedes Oligo A ‚, B‘ oder C‘ trennen konnte, und stellten fest, dass der Umbenennungsprozess Oligos A ‚ oder C‘ vollständig daran hinderte, die Datei zu trennen (Abb. 6b, unten). Nur oligo B‘ konnte die Datei trennen, was darauf hindeutet, dass fast alle Stränge erfolgreich von A nach B umbenannt wurden. Basierend auf der Fähigkeit von Oligos, Dateien mit nahezu 100% iger Fertigstellung umzubenennen, stellten wir die Hypothese auf und fanden tatsächlich heraus, dass ein kurzes 20-nt-Oligo, das vollständig zu A komplementär ist, verwendet werden könnte, um den Überhang von Datei A vollständig zu blockieren und im Wesentlichen aus der Datenbank zu löschen (Abb. 6b, unten). Eine Datei kann auch einfach aus einer Datenbank extrahiert werden, um sie ebenfalls zu löschen. Diese alternative Form des blockierungsbasierten Löschens bietet jedoch eine Möglichkeit, sicherzustellen, dass auf verbleibende Dateistränge, die nicht vollständig extrahiert wurden, in Zukunft nicht fälschlicherweise zugegriffen wird.

Related Posts

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.