Fig. 2: DORIS elimina le interazioni non specifiche e aumenta i limiti di densità e capacità.
una singola estensione di primer ha creato ss-dsDNAs. (In basso) 4 cicli di PCR hanno generato la quantità ottimale di 160 nt ss-DSDNA riducendo al minimo la produzione di ssDNA in eccesso. (A destra) Il DNA gel ha mostrato un marcato aumento della generazione di ss-DSDNA al di sotto dei rapporti ssDNA:primer di 1: 10. b I singoli file possono essere separati da un database di tre file creato da una singola estensione di primer di un vaso. Ogni file è stato legato dal suo corrispondente oligo legato alla biotina, seguito da una separazione non basata sulla PCR utilizzando perline magnetiche funzionalizzate. La specificità di separazione dell’archivio è la percentuale del DNA separato da quello è archivio A, B, o C come misurato da qPCR. c (Sinistra) PCR ma non DORIS permetterà oligos di legare siti off-target interni e produrre prodotti indesiderati. I gel di DNA (medi) e (a destra) la loro fluorescenza quantificata (blu per la PCR, rosa per DORIS) hanno mostrato che l’accesso basato sulla PCR ha provocato ampliconi troncati e indesiderati mentre DORIS ha avuto accesso solo ai fili desiderati. d (A sinistra) Monte Carlo simulazioni stimato il numero di oligos trovato che non interagiranno tra loro o il carico utile dei dati. 400.000 oligos sono stati testati contro diverse codifiche di densità. L’asse x rappresenta la densità (Eq. (4)), che è inversamente correlato alla lunghezza delle parole di codice utilizzate per memorizzare valori di dati discreti di un byte. Abbiamo valutato le lunghezze di codeword da 12 a 4. Per DORIS, la densità di codifica non è stata influenzata perché non ha bisogno di protezione contro il legame indesiderato tra oligos e payload di dati. (A destra) Per la PCR, il numero di oligos che non legano il carico utile dei dati diminuisce con l’aumentare della densità del filo, il che significa che è possibile memorizzare meno file, portando a una minore capacità complessiva del sistema. Per DORIS, la disponibilità di oligos è indipendente dalla codifica e la capacità aumenta quindi con codifiche più dense. I valori tracciati rappresentano la media aritmetica e le barre di errore rappresentano lo s. d. di tre separazioni o simulazioni di file di replica. Le immagini in gel sono rappresentative di tre esperimenti indipendenti misurati con RT-QPCR. I dati di origine sono forniti come file di dati di origine. * Le capacità possono essere limitate da limitazioni di sintesi e sequenziamento non contabilizzate qui.
Successivamente, abbiamo testato se questo metodo potesse essere utilizzato per creare 3 ss-DSDNA distinti in reazioni one-pot e se ogni ss-dsDNA potesse quindi essere specificamente separato dalla miscela (Fig. 2 ter). Abbiamo mescolato 3 SSDNA distinti ” A”, “B” e” C ” insieme, aggiunto il primer comune ed eseguito 4 cicli di PCR per creare gli ss-DSDNA (qui indicati come file composti da un solo filo unico ciascuno). Abbiamo quindi utilizzato oligos DNA 20 nt biotina-linked per legare ogni ss-dsDNA (cioè, ogni archivio, A, B e C ha una sequenza distinta di sporgenza o indirizzo di archivio) e li ha separati fuori dalla miscela facendo uso delle perle magnetiche funzionalizzate con streptavidin. Ciascuno di questi oligos era in grado di separare specificamente solo il loro file corrispondente senza gli altri due (Fig. 2b, in basso, Eq. (1)). È importante sottolineare che questa fase di separazione potrebbe essere eseguita a temperatura ambiente (25 °C)con solo guadagni minimi osservati a temperature di ricottura oligo superiori di 35 o 45 °C (Fig. 2, Eq. (2)). La temperatura ambiente e la natura isotermica di questo passaggio sono utili per sistemi pratici di stoccaggio del DNA e per ridurre la degradazione del DNA.
Mentre 20 nt è una lunghezza di primer PCR standard, abbiamo chiesto se l’efficienza di separazione potesse essere modulata da diverse lunghezze di sporgenza e temperature di separazione. Abbiamo progettato 5 ss-DSDNA con sporgenze 5-25 nt (Fig. 3). Abbiamo quindi separato ogni filo utilizzando il suo specifico oligo legato alla biotina a 15-55 °C. Abbiamo osservato una maggiore efficienza di separazione per oligos più lunghi (20mers e 25mers)e a temperature più basse (15 °C e 25 °C, Fig supplementare. 3 ter). Ciò era in accordo con un’analisi termodinamica utilizzando il calcolatore delle proprietà oligonucleotidiche (Fig. 3c, Metodi, Sqa. (3)–(5))28,29,30.
DORIS aumenta i limiti di densità e capacità
Un potenziale vantaggio delle separazioni a temperatura ambiente dei file è che le porzioni a doppio filamento degli ss-DSDNA rimangono ricotte insieme e possono bloccare il legame oligo indesiderato a qualsiasi sequenza simile nelle regioni di carico utile dei dati. La regione di carico utile dei dati è la maggior parte della sequenza nel mezzo di ss-DSDNA che contiene le informazioni memorizzate. Per testare questa ipotesi, abbiamo creato due ss-DSDNA (Fig. 2 quater). Un ss-dsDNA aveva una sporgenza che legava oligo A ‘ e un sito di legame interno per oligo B’. Abbiamo verificato sperimentalmente che usando DORIS, solo oligo A’ ma non oligo B ‘ poteva separare il filo. Per confronto, i sistemi basati su PCR fondono DSDNA in ogni ciclo, consentendo ai primer di legarsi fuori bersaglio all’interno del carico utile dei dati. Come previsto, quando è stata utilizzata la PCR, sia oligo A ‘che oligo B’ si sono legati, con oligo B’ producendo prodotti troncati indesiderati. Il secondo filo che abbiamo testato aveva un sito di legame interno e sporgenza che entrambi erano complementari a oligo C’. Abbiamo dimostrato che usando DORIS, oligo C ‘ ha prodotto solo il filo a tutta lunghezza. Al contrario, quando si utilizza la PCR, oligo C ‘ creato sia a figura intera e trefoli troncati.
Abbiamo quindi chiesto quali implicazioni avesse questa proprietà di blocco di DORIS per l’archiviazione delle informazioni basata sul DNA. Man mano che i database aumentano di dimensioni, intuitivamente aumenta la probabilità che sequenze identiche alle sequenze di indirizzi (sporgenze per DORIS o siti di primer per PCR) che appaiono nelle regioni di carico utile dei dati. Con DORIS, questo non è un problema in quanto gli oligos sono bloccati dall’associazione delle regioni di payload dei dati dsDNA. Tuttavia, nella PCR, i primer legano queste regioni di carico utile dei dati,quindi gli approcci precedenti hanno sviluppato algoritmi di codifica che limitano le sequenze di primer (indirizzi) dalla sovrapposizione con qualsiasi sequenza identica o simile nei carichi utili di dati11, 12, in genere evitando le distanze di Hamming entro ~<6. Questo riduce intrinsecamente sia la densità con cui i database possono essere codificati a causa di restrizioni sullo spazio sequenza di payload di dati, o la loro capacità a causa di una riduzione del numero di sequenze di primer univoci che possono essere utilizzati. Densità è la quantità di informazioni memorizzate per nt (Eq. (6)), e diminuisce come restrizioni di codifica sono posti limitando quali sequenze possono essere utilizzati nella regione payload (spazio sequenza diversità inferiore), mentre la capacità è la quantità totale di informazioni che possono essere memorizzati in un sistema (Eq. (7)) e dipende dal numero di indirizzi disponibili in quanto dettano il numero di file che possono essere memorizzati.
Per mostrare queste relazioni quantitativamente, è attualmente impossibile risolvere analiticamente o calcolare in modo completo il numero di indirizzi disponibili che non interagiscono con l’area di payload dei dati, anche per database di dimensioni moderate. Pertanto, abbiamo eseguito simulazioni Monte Carlo per stimare il numero totale di indirizzi e le capacità totali realizzabili. Le sequenze di indirizzi erano (PCR) o non erano (DORIS) escluse se apparivano nelle regioni di carico utile dei dati di un database con 109 filamenti di DNA distinti (Fig. 2d, Metodi). Per semplificare l’analisi, abbiamo utilizzato codewords computazionali per codificare la regione del payload dei dati. Ogni codice è una sequenza nt distinta e contiene un byte (B) di informazioni digitali. La regione del payload dei dati può essere resa più densa di informazioni riducendo le dimensioni delle parole di codice in modo che più parole di codice (e byte) si adattino a ciascun filo di lunghezza fissa. Il compromesso è che le parole di codice più piccole aumenteranno anche la diversità delle sequenze dei trefoli (il numero di possibili sequenze distinte per lunghezza del filo) a causa di più giunzioni codeword-codeword per filo. Ciò aumenta la possibilità di sequenze simili che appaiono nel payload in conflitto con le sequenze di indirizzi.
La simulazione ha valutato se le sequenze di indirizzi sarebbero in conflitto con qualsiasi sequenza nel payload. Tuttavia, per DORIS, anche se le sequenze di indirizzi erano in conflitto con il payload, questi indirizzi erano consentiti. La simulazione ha quindi dimostrato che, poiché la densità delle informazioni sul carico utile è stata aumentata riducendo la lunghezza delle parole di codice, il numero di indirizzi disponibili non è cambiato per DORIS poiché non sono state imposte restrizioni agli indirizzi diversi da quelli che non potevano essere simili ad altri indirizzi (Fig. 2d, sinistra, rosa). Inoltre, come previsto, con l’aumento della densità delle informazioni sul payload, la capacità del database è aumentata monotonicamente poiché il numero di indirizzi di file è rimasto lo stesso del numero totale di trefoli per file (Fig. 2d, destra, rosa). Al contrario, per la PCR, gli indirizzi che apparivano in qualsiasi sequenza di carico utile dei dati sono stati esclusi; il risultato è stato che l’aumento della densità di informazioni sul carico utile inizialmente ha fornito un vantaggio minore alla capacità complessiva (Fig. 2d, destra, blu) ma alla fine ha portato a un calo catastrofico della capacità in quanto il numero di indirizzi che non è in conflitto con alcuna sequenza di payload è sceso rapidamente a zero (Fig. 2d, sinistra, blu). Mentre è possibile aumentare il numero di trefoli distinti per indirizzo (cioè, informazioni per file) per compensare la perdita di indirizzi, questo si tradurrebbe in file troppo grandi per essere sequenziati e decodificati in una singola sequenza run17. È anche importante notare che le nostre simulazioni si basavano su densità di codice molto conservative e su una dimensione del database di soli 109 filamenti di DNA, mentre i futuri sistemi di archiviazione potrebbero superare i 1012 filamenti o superiori. Man mano che le densità del database e gli spazi di sequenza del DNA aumentano, il numero di indirizzi disponibili per i sistemi basati su PCR diminuirà ulteriormente mentre DORIS rimarrà inalterato. Pertanto, i miglioramenti teorici di capacità e densità forniti da DORIS potrebbero essere ordini di grandezza superiori a quanto stimato nelle nostre simulazioni. Inoltre, DORIS semplifica enormemente la progettazione degli indirizzi; la progettazione di set di indirizzi ortogonali per sistemi basati su PCR che non interagiscono con sequenze di payload di dati diventerà rapidamente computazionalmente intrattabile a grandi dimensioni del database. In sintesi, un database composto da ss-DSDNA può essere creato in modo efficiente in reazioni one-pot e gli sbalzi ssDNA facilitano un metodo di separazione non basato su PCR che migliora la specificità dell’indirizzo e aumenta le densità e le capacità teoriche del database.
DORIS consente l’accesso ai file ripetibile
Un requisito chiave, ma la sfida principale per la progettazione di proprietà dinamiche nei sistemi di archiviazione è la riusabilità del sistema. In questo lavoro, abbiamo preso ispirazione da sistemi biologici naturali in cui le informazioni sono ripetutamente accessibili da una singola copia permanente del DNA genomico attraverso il processo di trascrizione. Come mostrato in Fig. 3a, l’accesso dinamico in DORIS inizia separando fisicamente un file di interesse (ss-DSDNA che condivide lo stesso indirizzo di sporgenza) utilizzando oligos legati alla biotina e separazione magnetica basata su streptavidina, trascrivendo in vitro (IVT) il DNA in RNA31, restituendo il file al database e trascrivendo l’RNA in cDNA per l’analisi o il sequenziamento a valle.
Fig. 3: DORIS imita la trascrizione naturale per accedere ripetutamente alle informazioni.
un file A è stato separato utilizzando la separazione magnetica non basata su PCR mentre il database è stato recuperato (Database mantenuto) (n = 3 per ogni condizione). La trascrizione in vitro basata su T7 è stata eseguita direttamente sul file immobilizzato con perline fino a 48 h per generare RNA. La trascrizione inversa ha convertito l’RNA in DNA complementare (cDNA) mentre il file immobilizzato A è stato rilasciato nuovamente nel database (file mantenuto) (n = 3 per ogni condizione). b La quantità di database conservati (light shading) e di file conservati (dark shading) dopo l’accesso al file A da parte di oligo A’ è stata misurata da qPCR e tracciata come percentuale della quantità originale di ciascun file che era nel database. La specificità dell’accesso ai file è evidente dall’assenza di file B e C nel file mantenuto. La presenza di T7 RNA polimerasi (RNAP) non ha influenzato la conservazione del file A. il file c A è stato ripetutamente consultato 5 volte. Le quantità di file A, B e C nel database sono state misurate da qPCR e tracciate come la quantità di ciascun file nel database dopo ogni esecuzione (n = 3 per ogni condizione), normalizzate alla quantità originale di ciascun file prima del 1 ° accesso. I valori rappresentano la media aritmetica. Le barre di errore sono s. d., n = il numero di accessi ai file di replica. I dati di origine sono forniti come file di dati di origine.
Abbiamo implementato questo sistema con tre ss-DSDNA distinti (A, B e C) che rappresentano collettivamente un database a tre file, e abbiamo avuto accesso al file A con un oligo A biotinilato’ (Fig. 3b& Supplementare Fig. 4). Abbiamo quindi misurato le quantità e le composizioni del” database mantenuto “(light shading) e” file mantenuto ” (dark shading) da qPCR (Eq. (8)). Il database mantenuto aveva livelli più elevati di file B e C rispetto ad A, come alcuni dei filoni di file A sono stati rimossi nella separazione magnetica. Il file mantenuto conteneva per lo più filoni di file A, con minimo B o C. La migliore quantità totale netta di file A recuperato dal database mantenuto e file mantenuto era di circa il 90% di quello che era originariamente nel database. L’alto tasso di conservazione del file A ha suggerito che un file potrebbe essere ri-accesso più volte. Abbiamo testato questo accedendo ripetutamente al file A cinque volte e misurato le quantità e le composizioni dei file A, B e C nel database dopo ogni accesso (Fig. 3c& Supplementare Fig. 4 quater). Come previsto, le quantità complessive di file B e C sono state mantenute a livelli relativamente stabili nel database. Circa il 50% dei filoni di file A è rimasto dopo cinque accessi. Le implicazioni pratiche per i sistemi di archiviazione del DNA sono che solo 2 copie di ogni sequenza distinta sono necessarie nel database iniziale per ogni 5 volte in cui si accede (ignorando gli effetti delle distribuzioni di filamenti). Questo è un miglioramento rispetto all’accesso ai file basato su PCR in cui vengono prese e amplificate piccole aliquote del database. In questo caso, è necessaria una copia di ciascuna sequenza distinta per ogni accesso; inoltre, a differenza di DORIS, tutti gli altri file di database saranno ridotti in modo simile in abbondanza anche se non sono stati accessibili. Pertanto, DORIS può estendere la durata dei database del DNA e consentire un accesso più frequente per la stessa massa totale di DNA sintetizzato.
Abbiamo poi chiesto come la reazione IVT potrebbe influenzare la stabilità del database, in quanto viene eseguita ad una temperatura elevata di 37 °C e potrebbe degradare l’ss-dsDNA. Mentre il database mantenuto non è esposto all’IVT, il file a cui si accede è e la quantità di ss-dsDNA mantenuto potrebbe essere influenzata dalla lunghezza dell’IVT. Infatti, mentre la presenza di RNA polimerasi stessa non ha avuto alcun effetto sul file conservato, la durata del tempo IVT ha fatto diminuire la quantità di file conservato (Fig. 3b& Supplementare Fig. 4 bis). È interessante notare che, riannealing il file conservato a 45 °C e permettendo che si raffreddi a temperatura ambiente migliorato il tasso di ritenzione, ma i tempi più lunghi IVT ancora ridotto la conservazione complessiva del file (Fig. 4 ter). Ciò suggerisce che una certa perdita è dovuta ai fili di file che si staccano dagli oligos o dagli RNA legati al tallone in competizione con ss-dsDNA, mentre una certa perdita è dovuta alla degradazione del DNA. Come controllo per confermare che ss-dsDNA non contaminava il cDNA generato dall’RNA trascritto, il cDNA è stato ottenuto solo quando l’RNA polimerasi è stata inclusa nella reazione IVT (Fig. 4d).
Successivamente ci siamo concentrati sulla valutazione della qualità e dell’efficienza dell’IVT. Per verificare se l’RNA polimerasi potrebbe creare trascritti troncati o allungati indesiderati, abbiamo ordinato una serie di sei SSDNA con una gamma di lunghezze che vanno da 110 a 180 nt (Fig. 4a& Supplementare Fig. 5). Questi sono stati convertiti in ss-dsDNA, trascritti in RNA e trascritti e amplificati in dsDNA. Bande uniformi chiare sono state osservate per ss-dsDNA, RNA e dsDNA. L’aumento del tempo di IVT ha aumentato la resa di RNA per tutti i modelli (Fig. 4b), anche se solo 2 h erano sufficienti per ottenere bande di RNA chiare (Fig. 4c), e il tempo IVT non ha influenzato la lunghezza dell’RNA generato. In sintesi, è possibile accedere ripetutamente alle informazioni da ss-DSDNA mediante separazione basata su oligo e IVT.
Fig. 4: La trascrizione basata su T7 genera prodotti di dimensioni uniformi.
figure4
a sei oligos ssDNA con lunghezze diverse sono stati progettati per generare sei modelli ss-dsDNA con lunghezze di 180 bp, 160 bp, 140 bp, 130 bp, 120 bp e 110 bp, rispettivamente. Ogni ss-dsDNA ha compreso una sequenza obbligatoria inversa dell’iniettore di consenso, una sequenza obbligatoria dell’iniettore T7, una sequenza obbligatoria dell’iniettore di andata e una sequenza del carico utile con le lunghezze variabili. Questi modelli ss-dsDNA sono stati trascritti in vitro per 8 h, seguiti da RT-PCR. Le dimensioni del prodotto sono state esaminate mediante elettroforesi su gel di agarosio. b Decorso del tempo IVT fino a 48 h (n = 3 reazioni IVT replicate per ogni condizione). La quantità di molecole modello di RNA e DNA è stata misurata da NanoDrop e tracciata come loro rapporto. c Elettroforesi su gel di RNA e prodotti dsDNA dopo 2-48 h di IVT seguita da RT-PCR. I valori tracciati rappresentano la media aritmetica e le barre di errore rappresentano lo s. d. di tre reazioni IVT indipendenti. Le immagini in gel sono rappresentative per tre esperimenti indipendenti misurati con RT-QPCR. I dati di origine sono forniti come file di dati di origine.
La trascrizione può essere sintonizzata dalla sequenza del promotore
Recenti lavori sulla memorizzazione delle informazioni molecolari hanno dimostrato l’utilità di memorizzare informazioni aggiuntive nella composizione di miscele di molecole distinte, tra cui DNA32,33. Poiché le informazioni accessibili da DORIS si basano sulla RNA polimerasi T7 e vi sono prove che le varianti del promotore T7 possono influenzare l’efficienza della trascrizione34, 35,36,37,38,abbiamo chiesto se la resa della trascrizione basata su T7 potesse essere modulata da specifiche sequenze nucleotidiche attorno alla regione del promotore T7 mantenendo il promotore stesso costante per consentire la generazione di ss-dsDNA one-pot (Fig. 2 bis, lettera b). Per affrontare in modo completo questa domanda, abbiamo progettato e ordinato 1088 distinti fili 160 nt come un pool oligo. I primi 1024 filamenti contenevano tutte le possibili 5 sequenze di variante nt a monte della sequenza del promotore (NNNNN-Promoter, N è ciascuno dei quattro nucleotidi), e le ultime 64 sequenze erano tutte le 3 sequenze di variante nt a valle del promotore (Promoter-NNN, Fig. 5 bis). Poiché i nucleotidi NNNNN si trovavano nella sporgenza ssDNA, abbiamo anche chiesto se questa regione essendo a singolo filamento rispetto a doppio filamento avesse alcun impatto sulle relative efficienze trascrizionali. Per prima cosa abbiamo creato ss-dsDNA con primer extension e dsDNA con PCR del pool ssDNA oligo. Entrambi i database ss-dsDNA e dsDNA sono stati elaborati con IVT a 37 °C per 8 h, seguiti da RT-PCR e sequenziamento di nuova generazione. I codici a barre brevi sono stati progettati nella regione del payload per identificare da quale variante del promotore è stata derivata ogni trascrizione sequenziata.
Fig. 5: L’efficienza basata a T7 della trascrizione può essere controllata dalle sequenze circostanti.
un pool oligo con 1088 sequenze distinte è stato progettato per generare modelli ss-dsDNA. Le prime 1024 sequenze contenevano tutte le possibili combinazioni di nucleotidi a monte della sequenza del promotore (NNNNN-T7, dove N è uno dei quattro nucleotidi del DNA), mentre le ultime 64 sequenze avevano tutte le possibili combinazioni di nucleotidi a valle della regione del promotore (T7-NNN). Ogni sequenza conteneva un codice a barre per identificare la sequenza dei nucleotidi variante. Il modello ss-DSDNA è stato elaborato con IVT per 8 h, seguito da RT-PCR e sequenziamento di nuova generazione (n = 3 per ogni condizione). b Le efficienze di trascrizione di entrambi i disegni di sequenza sono state tracciate normalizzando il conteggio di lettura di ciascun filo trascritto alla sua abbondanza nella libreria originale. I dati sono stati organizzati dal più basso al più alto abbondanza normalizzata per entrambi i disegni. c Le sequenze sono state ulteriormente suddivise in quattro quartili basati sull’abbondanza di trascrizione normalizzata e analizzati dallo strumento WebLogo. d L’abbondanza normalizzata di ogni sequenza è stata organizzata per percentuale A/T. I valori P tra ciascun gruppo sono stati calcolati utilizzando ANOVA unidirezionale con Tukey-Kramer post-hoc e elencati qui per la significatività statistica. NNNNN-T7: valori p inferiori a 0,01 per i confronti tra 0% -100%, 80% -100% e 20% -80%; valori p inferiori a 0,001 per i confronti tra 20%-100%, 40%-80%, 40%-100%, 60%-80% e 60% -100%; T7-NNN, valori p inferiori a 0,05 per i confronti tra 33% -100%, 0% -100% e 0% -66%. e L’errore percentuale per ogni posizione di sequenza del DNA per il database sintetizzato originale (a sinistra) e il database trascritto (a destra). Il tasso di errore è stato calcolato dividendo il numero di errori di un dato tipo che si verificano in una posizione nucleotidica per il numero totale di letture per quella sequenza (Metodo supplementare). I valori tracciati rappresentano la media aritmetica e le barre di errore rappresentano lo s. d.di tre campioni IVT-RT-PCR-NGS indipendenti. I dati di origine sono forniti come file di dati di origine.
L’abbondanza di ogni sequenza di trascrizione distinta è stata normalizzata alla sua abbondanza nell’originale ss-dsDNA (Fig. 5b) o dsDNA (Fig. 6a) database (Eq. (9)). È stata ottenuta una gamma ampia e quasi continua di abbondanze normalizzate, indicando che questo approccio potrebbe essere sfruttato per creare complesse miscele compositive di DNA in futuro. Per determinare se ci possono essere semplici principi di progettazione che descrivono l’efficienza del promotore, abbiamo segmentato le sequenze 1088 in quartili in base all’abbondanza di trascrizione e importato i dati nello strumento weblogo39. Abbiamo scoperto che G o A nella 5a posizione direttamente a monte e C o T nella 3a posizione direttamente a valle del promotore T7 generalmente risultavano nelle più alte abbondanze di RNA (Fig. 5 quater). La segmentazione dei dati per contenuto A / T ha mostrato che c’era una leggera preferenza per il contenuto A/T ~50% a monte del promotore T7 e una preferenza per il contenuto A/T generale basso a valle del promotore T7 (Fig. 5d).
Questo esperimento di sequenziamento di nuova generazione ha anche fornito la certezza che DORIS è scalabile per grandi e complessi pool ss-dsDNA. Inoltre, l’analisi degli errori delle letture di sequenziamento non ha indicato eliminazioni sistematiche, troncamenti o sostituzioni e i livelli di errore complessivi erano ben al di sotto di quelli già presenti dalla sintesi del DNA (Fig. 5 e).
DORIS consente operazioni sui file di archiviazione
Molti sistemi di archiviazione delle informazioni inorganiche, anche gli archivi di celle frigorifere, mantengono la capacità di manipolare dinamicamente i file. Capacità simili nei sistemi basati sul DNA aumenterebbero significativamente il loro valore e la loro competitività. Gli sbalzi ssDNA sono stati precedentemente utilizzati per eseguire calcoli nel contesto di toehold switches40,41,42,43, e quindi abbiamo ipotizzato che potessero essere utilizzati per implementare operazioni sui file in-storage. Come prova di principio, abbiamo implementato il blocco, lo sblocco, la ridenominazione e l’eliminazione dei file e abbiamo mostrato che queste operazioni potevano essere eseguite a temperatura ambiente (Fig. 6).
Fig. 6: Toeholds abilitare le operazioni sui file in-storage.
uno schema (in alto) di blocco e sblocco delle operazioni sui file di archiviazione. (In basso) Tenta di accedere al file A di DORIS senza blocco (No-Lock), con blocco ma senza chiave (No-Key), o con blocco e chiave aggiunti a temperature diverse (arancione) (n = 3 per ogni condizione). La serratura è stata aggiunta a 98 °C. La chiave è stata aggiunta a diverse temperature (arancione) e poi raffreddata a 14 °C (n = 3 per ogni condizione). Oligo A ‘ è stato aggiunto a diverse temperature di accesso di 25, 35, 45 o 75 °C per 2 min, seguito da un calo di temperatura di 1 °C/min a 25 °C (n = 3 per ogni condizione). Efficienza di separazione è la quantità di file A recuperato rispetto alla sua quantità originale, come misurato da qPCR. b (in alto) Schema delle operazioni di rinomina ed eliminazione. Il file A è stato modificato rinominando o eliminando oligos. (In basso) Il completamento di ogni operazione è stato testato misurando quanto del file è stato separato da ogni singolo oligo: A’, B’ o C’. Efficienza di separazione è la quantità di file A separato rispetto alla sua quantità originale nel database, come misurato da qPCR. Nessuna Mod (Nessuna modifica/operazione di file). I valori tracciati rappresentano la media aritmetica e le barre di errore rappresentano lo s. d. di tre operazioni/separazioni di file di replica indipendenti. I dati di origine sono forniti come file di dati di origine.
Abbiamo iniziato con il database a tre file e testato la capacità di un oligo A ‘ legato alla biotina di legare e separare il file A a temperature comprese tra 25 e 75 °C (Fig. 6a, in basso, senza serratura). Circa il 50% dei trefoli di file A sono stati separati con successo dal database. Per bloccare il file A, abbiamo separato il file A dal database a tre file e mescolato in un lungo ssDNA 50 nt (lock) che aveva una sequenza complementare di 20 nt allo sbalzo ssDNA del file A. Con il blocco in posizione, oligo A’ non era più in grado di separare il file se non a temperature più elevate superiori a 45 °C (Fig. 6a, bottom, no-key), presumibilmente perché la serratura era fusa dallo sbalzo, consentendo a oligo A ‘ di competere per legare lo sbalzo. Per sbloccare il file, abbiamo aggiunto la chiave che era un ssDNA 50 nt completamente complementare alla serratura. Abbiamo testato diverse temperature di sblocco e abbiamo scoperto che la chiave era in grado di rimuovere la serratura a temperatura ambiente con la stessa efficienza delle temperature più elevate. Ciò è probabilmente dovuto al lungo 30 nt toehold presentato dal blocco, consentendo alla chiave di decomprimere il blocco dal file A. Abbiamo anche ottimizzato i rapporti molari relativi (file A: lock: key: oligo A’ = 1: 10: 10: 15) per ridurre al minimo la separazione off-target e garantire il corretto bloccaggio. Abbiamo osservato che la temperatura alla quale è stato aggiunto il blocco ha influenzato la fedeltà del processo di bloccaggio. A 98 °C, il processo di bloccaggio ha funzionato bene. Quando la serratura è stata aggiunta a 25 °C, c’era una separazione che perdeva anche quando non è stata aggiunta alcuna chiave (Fig. 7). Ciò può essere dovuto alle strutture secondarie che impediscono ad alcuni filamenti di file A di ibridarsi con serrature a basse temperature. Fortunatamente, il blocco a 45 °C aveva prestazioni ragionevoli, evitando così la necessità di elevare il sistema a 98 °C. Nel contesto di un futuro DNA sistema di archiviazione di file possono essere separati poi bloccato ad una temperatura elevata, poi tornò al database, evitando l’esposizione dell’intero database a temperature elevate. L’intero processo potrebbe altrimenti essere eseguito a temperatura ambiente.
Abbiamo anche implementato la ridenominazione e la cancellazione dei file. Per rinominare un file con l’indirizzo A per avere l’indirizzo B, abbiamo mescolato il file A con un ssDNA 40 nt che si lega ad A, con la sporgenza risultante che è l’indirizzo B (Fig. 6 ter). Abbiamo aggiunto tutti i componenti con rapporti simili al processo di blocco (file: ridenominazione oligo: accesso oligo = 1: 10: 15) e la ridenominazione oligo è stata aggiunta a 45 °C. Abbiamo quindi testato quanti filoni di file ogni oligo A’, B’ o C ‘poteva separare e abbiamo scoperto che il processo di ridenominazione bloccava completamente oligos A ‘o C’ dalla separazione del file (Fig. 6b, in basso). Solo oligo B ‘ è stato in grado di separare il file suggerendo che quasi tutti i trefoli sono stati rinominati con successo da A a B. Allo stesso modo, abbiamo rinominato con successo il file Da A a C. Sulla base della capacità di oligos di rinominare i file con quasi il completamento del 100%, abbiamo ipotizzato e in effetti abbiamo scoperto che un breve oligo 20 nt completamente complementare ad A potrebbe essere utilizzato per bloccare completamente lo sbalzo del file A ed essenzialmente eliminarlo dal database (Fig. 6b, in basso). Un file potrebbe anche essere semplicemente estratto da un database per eliminarlo pure. Tuttavia, questa forma alternativa di cancellazione basata sul blocco suggerisce un modo per garantire che eventuali filoni di file rimasti che non sono stati completamente estratti non siano accessibili spuriosamente in futuro.