Los hilos de ss-dsDNA se pueden crear de manera eficiente en un solo recipiente
Ya que las futuras bases de datos de ADN estarían compuestas por más de 1015 hilos distintos17, primero preguntamos si los ss-dsDNA se podrían crear de una manera de alto rendimiento y paralelizada. Pedimos 160 nucleótidos (nt) ADN monocatenario (ssDNA) con una secuencia común de 23 nt insertada a 20 nt del extremo 3′ (Fig. 1c y 2a, cuadro complementario 1). Esta secuencia de 23 nt contenía el promotor de ARN polimerasa T7, pero también se usó para unir una imprimación común para rellenar y convertir el ADNss en un ADNss-DSD. Esto se logró mediante varios ciclos de recocido térmico y extensión de la polimerasa de ADN (por ejemplo, ciclos de PCR, pero con un solo cebador). Esto resultó en hebras de ss-dsDNA con un voladizo de 20 nt (Fig. 2a, parte superior). Optimizamos la relación entre ssDNA y imprimación, el número de ciclos, junto con otros parámetros ambientales (Fig. 2a, Suplemento Fig. 1) maximizar la cantidad de ADNss convertida en ADNss-DSD. Descubrimos que la disminución del ssDNA:la relación de imprimación pasada 1: 10 condujo a un cambio escalonado en la cantidad de ss-dsDNA producida cuantificada mediante electroforesis en gel (Fig. 1b). Decidimos trabajar de forma conservadora con una relación de 1:20 ssDNA:imprimación. En esa proporción, encontramos que solo se necesitaban 4 ciclos de PCR para convertir el ADNss en ADNSDSS, como se ve por el cambio hacia arriba en el gel de ADN (Fig. 2a).
A continuación, probamos si este método se podía usar para crear 3 ss-dsDNAs distintos en reacciones de un recipiente y si cada ss-dsDNA podía separarse específicamente de la mezcla (Fig. 2b). Mezclamos 3 ssDNAs distintos» A»,» B «y» C», agregamos el primer común y realizamos 4 ciclos de PCR para crear los ss-dsDNAs (aquí denominados archivos compuestos de una sola cadena única cada uno). Luego usamos oligoelementos de ADN de 20 nt enlazados con biotina para unir cada ss-dsDNA (p. ej., cada archivo, A, B y C tiene una secuencia saliente distinta o una dirección de archivo) y los separó de la mezcla utilizando perlas magnéticas funcionalizadas con estreptavidina. Cada uno de estos oligos pudo separar específicamente solo su archivo correspondiente sin los otros dos (Fig. 2b, abajo, Ec. (1)). Es importante destacar que este paso de separación podría realizarse a temperatura ambiente (25 °C) con solo ganancias mínimas observadas a temperaturas de recocido oligo más altas de 35 o 45 °C (Fig.Suplementaria. 2, Ec. (2)). La temperatura ambiente y la naturaleza isotérmica de este paso es útil para sistemas prácticos de almacenamiento de ADN y para reducir la degradación del ADN.
Mientras que 20 nt es una longitud de imprimación de PCR estándar, preguntamos si la eficiencia de separación podría modularse mediante diferentes longitudes de voladizo y temperaturas de separación. Diseñamos 5 ss-dsDNAs con voladizos de 5-25 nt (Suplemento Fig. 3). A continuación, separamos cada hebra utilizando su oligo ligado a biotina específico a 15-55 °C. Observamos una mayor eficiencia de separación para oligos más largos (20 m y 25 m) y a temperaturas más bajas (15 °C y 25 °C, Suplemento Fig. 3b). Esto estaba de acuerdo con un análisis termodinámico utilizando la Calculadora de Propiedades de Oligonucleótidos (Fig. 3c, Métodos, Ecualizadores. (3)–(5))28,29,30.
DORIS aumenta los límites de densidad y capacidad
Una ventaja potencial de las separaciones de archivos a temperatura ambiente es que las porciones de doble cadena de los ss-dsDNAs permanecen recocidas juntas y pueden bloquear la unión oligo no deseada a secuencias similares en las regiones de carga útil de datos. La región de carga útil de datos es la mayoría de la secuencia en medio de ss-dsDNAs que contiene la información almacenada. Para probar esta hipótesis, creamos dos ss-dsDNAs (Fig. 2c). Un ss-dsDNA tenía un voladizo que unía a oligo A’ y un sitio de unión interno para oligo B’. Verificamos experimentalmente que al usar DORIS, solo el oligo A ‘pero no el oligo B’ podía separar la hebra. Para la comparación, los sistemas basados en PCR funden dsDNAs en cada ciclo, lo que permite que los cebadores se unan fuera del objetivo dentro de la carga útil de datos. Como era de esperar, cuando se utilizó la PCR, tanto el oligo A’ como el oligo B’ se unían, y el oligo B’ producía productos truncados no deseados. La segunda hebra que probamos tenía un sitio de unión interno y voladizo que ambos eran complementarios a oligo C’. Mostramos que usando DORIS, oligo C ‘ produjo solo la hebra de longitud completa. En contraste, al usar PCR, oligo C ‘ creó hebras de longitud completa y truncadas.
A continuación preguntamos qué implicaciones tenía esta propiedad de bloqueo de DORIS para el almacenamiento de información basado en el ADN. A medida que las bases de datos aumentan de tamaño, aumenta intuitivamente la probabilidad de que aparezcan secuencias idénticas a secuencias de direcciones (voladizos para DORIS o sitios de imprimación para PCR) en regiones de carga útil de datos. Con DORIS, esto no es un problema, ya que los oligos no pueden vincular las regiones de carga de datos dsDNA. Sin embargo, en PCR, los cebadores enlazan estas regiones de carga de datos,por lo que los enfoques anteriores han desarrollado algoritmos de codificación que restringen la superposición de secuencias de cebadores (direcciones) con cualquier secuencia idéntica o similar en las cargas de datos, 11, 12, generalmente evitando distancias de Hamming dentro de ~<6. Esto reduce inherentemente la densidad con la que se pueden codificar las bases de datos debido a las restricciones en el espacio de secuencias de carga útil de datos, o su capacidad debido a una reducción en el número de secuencias de imprimación únicas que se pueden usar. La densidad es la cantidad de información almacenada por nt (Ec. (6)), y disminuye a medida que se colocan restricciones de codificación que limitan las secuencias que se pueden usar en la región de carga útil (espacio de secuencia de menor diversidad), mientras que la capacidad es la cantidad total de información que se puede almacenar en un sistema (Ec. (7)) y depende del número de direcciones disponibles, ya que dictan el número de archivos que se pueden almacenar.
Para mostrar estas relaciones cuantitativamente, actualmente es intratable resolver analíticamente o calcular exhaustivamente el número de direcciones disponibles que no interactúan con la región de carga útil de datos, incluso para bases de datos de tamaño moderado. Por lo tanto, realizamos simulaciones de Monte Carlo para estimar el número total de direcciones y capacidades totales alcanzables. Se excluyeron las secuencias de direcciones (PCR) o no (DORIS) si aparecían en las regiones de carga útil de datos de una base de datos con 109 hebras de ADN distintas (Fig. 2d, Métodos). Para simplificar el análisis, utilizamos palabras de código computacionales para codificar la región de carga útil de datos. Cada palabra clave es una secuencia nt distinta y contiene un byte (B) de información digital. La región de carga útil de datos se puede hacer más densa mediante la reducción del tamaño de las palabras de código para que más palabras de código (y bytes) quepan dentro de cada cadena de longitud fija. La compensación es que las palabras de código más pequeñas también aumentarán la diversidad de secuencias de las hebras (el número de posibles secuencias distintas por longitud de hebra) debido a más uniones de palabra de código-palabra de código por hebra. Esto aumenta la posibilidad de que aparezcan secuencias similares en la carga útil que entren en conflicto con las secuencias de direcciones.
La simulación evaluó si las secuencias de direcciones entrarían en conflicto con cualquier secuencia de la carga útil. Sin embargo, para DORIS, incluso si las secuencias de direcciones entraban en conflicto con la carga útil, estas direcciones estaban permitidas. Por lo tanto, la simulación mostró que, a medida que la densidad de información de la carga útil aumentaba al reducir la longitud de la palabra de código, el número de direcciones disponibles no cambiaba para DORIS, ya que no se imponían restricciones a las direcciones, aparte de que no se les permitía ser similares a otras direcciones (Fig. 2d, izquierda, rosa). También como era de esperar, a medida que aumentaba la densidad de información de la carga útil, la capacidad de la base de datos aumentaba monótonamente, ya que el número de direcciones de archivo seguía siendo el mismo que el número total de hilos por archivo (Fig. 2d, derecha, rosa). En cambio, en el caso de la PCR, se excluyeron las direcciones que aparecían en cualquier secuencia de carga útil de datos; el resultado fue que el aumento de la densidad de información de la carga útil proporcionó inicialmente un beneficio menor a la capacidad general (Fig. 2d, derecha, azul), pero finalmente llevó a una caída catastrófica en la capacidad, ya que el número de direcciones que no entraban en conflicto con ninguna secuencia de carga útil se redujo rápidamente a cero (Fig. 2d, izquierda, azul). Mientras que es posible aumentar el número de hilos distintos por dirección (p. ej., información por archivo) para compensar la pérdida de direcciones, esto resultaría en archivos demasiado grandes para ser secuenciados y decodificados en una sola ejecución de secuenciación17. También es importante tener en cuenta que nuestras simulaciones se basaron en densidades de palabras clave muy conservadoras y un tamaño de base de datos de solo 109 hebras de ADN, mientras que es probable que los sistemas de almacenamiento futuros superen las 1012 hebras o más. A medida que aumenten las densidades de base de datos y los espacios de secuencia de ADN, el número de direcciones disponibles para los sistemas basados en PCR disminuirá aún más, mientras que DORIS no se verá afectado. Por lo tanto, las mejoras teóricas de capacidad y densidad que DORIS proporciona podrían ser órdenes de magnitud mayores de lo que se estima en nuestras simulaciones. Además, DORIS simplifica enormemente el diseño de direcciones; el diseño de conjuntos de direcciones ortogonales para sistemas basados en PCR que no interactúan con secuencias de carga útil de datos se convertirá rápidamente en intratable computacionalmente en bases de datos de gran tamaño. En resumen, una base de datos compuesta de ss-dsDNAs se puede crear de manera eficiente en reacciones de un solo recipiente, y los voladizos de ssDNA facilitan un método de separación no basado en PCR que mejora la especificidad de la dirección y aumenta las densidades y capacidades teóricas de la base de datos.
DORIS permite el acceso a archivos repetibles
Un requisito clave, pero el mayor desafío para la ingeniería de propiedades dinámicas en sistemas de almacenamiento es la reutilización del sistema. En este trabajo, nos inspiramos en sistemas biológicos naturales donde se accede repetidamente a la información desde una única copia permanente de ADN genómico a través del proceso de transcripción. Como se muestra en la Fig. 3a, el acceso dinámico en DORIS comienza separando físicamente un archivo de interés (ss-dsDNAs que comparten la misma dirección saliente) utilizando oligos vinculados a biotina y separación magnética basada en estreptavidina, transcribiendo in vitro (IVT) el ADN a RNA31, devolviendo el archivo a la base de datos y transcribiendo inversamente el ARN en ADNc para análisis o secuenciación aguas abajo.
Implementamos este sistema con tres ss-dsDNAs distintos (A, B y C) que representan colectivamente una base de datos de tres archivos, y accedimos al archivo A con un oligo A’ biotinilado (Fig. 3b & Suplemento Fig. 4). Luego medimos las cantidades y composiciones de la «base de datos retenida» (sombreado claro) y el «archivo retenido» (sombreado oscuro) por qPCR (Ec. (8)). La base de datos retenida tenía niveles más altos de archivos B y C en comparación con A, ya que algunas de las hebras de archivo A se eliminaron en la separación magnética. El archivo retenido contenía principalmente filamentos de archivo A, con un mínimo de B o C. La mejor cantidad total neta de archivo A recuperado de la base de datos retenida y el archivo retenido fue aproximadamente el 90% de lo que estaba originalmente en la base de datos. La alta tasa de retención del archivo A sugería que se podía volver a acceder a un archivo varias veces. Probamos esto accediendo repetidamente al archivo A cinco veces, y medimos las cantidades y composiciones de los archivos A, B y C en la base de datos después de cada acceso (Fig. 3c & Suplemento Fig. 4c). Como se esperaba, las cantidades totales de los expedientes B y C se mantuvieron en niveles relativamente estables en la base de datos. Aproximadamente el 50% de los filamentos A permanecieron después de cinco accesos. Las implicaciones prácticas para los sistemas de almacenamiento de ADN es que solo se necesitan 2 copias de cada secuencia distinta en la base de datos inicial por cada 5 veces que se accede (ignorando los efectos de las distribuciones de hebras). Esta es una mejora sobre el acceso a archivos basado en PCR, donde se toman y amplifican pequeñas alícuotas de la base de datos. En este caso, se necesita una copia de cada secuencia distinta para cada acceso; además, a diferencia de DORIS, todos los demás archivos de base de datos se reducirán de manera similar en abundancia incluso si no se accedió a ellos. Por lo tanto, DORIS puede extender la vida útil de las bases de datos de ADN y permitir un acceso más frecuente a la misma masa total de ADN sintetizado.
A continuación, preguntamos cómo la reacción de IVT podría afectar la estabilidad de la base de datos, ya que se realiza a una temperatura elevada de 37 °C y podría degradar el ss-dsDNA. Si bien la base de datos retenida no está expuesta al IVT, el archivo al que se accede lo está, y la cantidad de ss-dsDNA retenida podría verse afectada por la longitud del IVT. De hecho, mientras que la presencia de ARN polimerasa en sí no tuvo ningún efecto en el archivo retenido, la duración del tiempo de IVT disminuyó la cantidad de archivo retenido (Fig. 3b & Suplemento Fig. 4a). Curiosamente, volver a revestir el archivo retenido a 45 °C y permitir que se enfríe a temperatura ambiente mejoró la tasa de retención, pero los tiempos de IVT más largos aún redujeron la retención general del archivo (Fig. 4b). Esto sugiere que una cierta pérdida se debe a que las hebras de archivo se desprenden de los oligos o ARN ligados a cuentas que compiten con ss-dsDNA, mientras que una cierta pérdida se debe a la degradación del ADN. Como control para confirmar que el ADND-SS no contaminaba el ADNc generado a partir del ARN transcrito, el ADNc se obtuvo solo cuando la ARN polimerasa se incluyó en la reacción de IVT (Suplemento Fig. 4d).
A continuación nos centramos en evaluar la calidad y la eficiencia de la IVT. Para comprobar si la ARN polimerasa podría estar creando transcripciones truncadas o alargadas no deseadas, ordenamos una serie de seis ssDNAs con un rango de longitudes que abarca 110-180 nt (Fig. 4a & Suplemento Fig. 5). Estos se convirtieron en ss-dsDNA, se transcribieron en ARN,y se transcribieron y amplificaron en dsDNA. Se observaron bandas uniformes claras para el ss-dsDNA, el ARN y el dsDNA. El aumento del tiempo de la TIV aumentó el rendimiento de ARN para todas las plantillas (Fig. 4b), aunque solo 2 h fueron suficientes para obtener bandas de ARN claras (Fig. 4c), y el tiempo de IVT no afectó la longitud del ARN generado. En resumen, se puede acceder repetidamente a la información desde ss-dsDNAs mediante separación basada en oligoelementos e IVT.
La transcripción se puede ajustar por secuencia promotora
Trabajos recientes sobre almacenamiento de información molecular han demostrado la utilidad de almacenar información adicional en la composición de mezclas de moléculas distintas, incluida la DNA32,33. Como la información a la que DORIS accede depende de la ARN polimerasa T7, y hay evidencia de que las variantes del promotor T7 pueden afectar la eficiencia de la transcripción34,35,36,37,38, preguntamos si el rendimiento de la transcripción basada en T7 podría modularse mediante secuencias de nucleótidos específicas alrededor de la región del promotor T7, manteniendo el promotor en sí constante para permitir la generación de ss-dsDNA de un solo recipiente (Fig. 2a, b). Para abordar esta pregunta de manera integral, diseñamos y ordenamos 1088 hilos distintos de 160 nt como una piscina oligo. Las primeras 1024 hebras contenían todas las posibles secuencias variantes de 5 nt aguas arriba de la secuencia promotora (NNNNN-Promotor, N es cada uno de los cuatro nucleótidos), y las últimas 64 secuencias eran todas secuencias variantes de 3 nt aguas abajo del promotor (Promotor-NNN, Fig. 5a). Como los nucleótidos NNNNN estaban ubicados en el voladizo del ADNss, también preguntamos si esta región, al ser de una sola cadena frente a doble cadena, tenía algún impacto en la eficiencia transcripcional relativa. Primero creamos ss-dsDNA por extensión de imprimación y dsDNA por PCR del pool de oligo de ssDNA. Tanto las bases de datos ss-dsDNA como las de dsDNA se procesaron con IVT a 37 °C durante 8 h, seguidas de RT-PCR y secuenciación de próxima generación. Se diseñaron códigos de barras cortos en la región de carga útil para identificar de qué variante de promotor se derivaba cada transcripción secuenciada.
La abundancia de cada secuencia de transcripción distinta se normalizó a su abundancia en el ss-dsDNA original (Fig. 5b)o dsDNA (Suplemento Fig. 6a) base de datos (Ec. (9)). Se obtuvo una gama amplia y casi continua de abundancias normalizadas, lo que indica que este enfoque podría aprovecharse para crear mezclas de composición complejas de ADN en el futuro. Para determinar si puede haber principios de diseño simples que describan la eficiencia del promotor, segmentamos las 1088 secuencias en cuartiles en función de la abundancia de transcripciones e importamos los datos en la herramienta weblogo39. Encontramos que G o A en la 5ª posición directamente aguas arriba y C o T en la 3ª posición directamente aguas abajo del promotor T7 generalmente resultaron en las mayores abundancias de ARN (Fig. 5c). La segmentación de los datos por contenido A/T mostró que había una ligera preferencia por ~50% de contenido A/T aguas arriba del promotor T7 y una preferencia por contenido A/T bajo global aguas abajo del promotor T7 (Fig. 5d).
Este experimento de secuenciación de próxima generación también proporcionó la confianza de que DORIS es escalable a grupos de ss-dsDNA grandes y complejos. Además, el análisis de errores de las lecturas de secuenciación no indicó eliminaciones, truncamientos o sustituciones sistemáticas, y los niveles de error generales estaban muy por debajo de los ya presentes en la síntesis de ADN (Fig. 5e).
DORIS permite operaciones de archivos en almacenamiento
Muchos sistemas de almacenamiento de información inorgánica, incluso archivos de almacenamiento en frío, mantienen la capacidad de manipular archivos dinámicamente. Capacidades similares en sistemas basados en ADN aumentarían significativamente su valor y competitividad. Los voladizos de ssDNA se han utilizado anteriormente para ejecutar cálculos en el contexto de los conmutadores de toehold40,41,42,43, y, por lo tanto, planteamos la hipótesis de que podrían usarse para implementar operaciones de archivos en almacenamiento. Como prueba de principio, implementamos el bloqueo, desbloqueo, cambio de nombre y eliminación de archivos y mostramos que estas operaciones se podían realizar a temperatura ambiente (Fig. 6).
Comenzamos con la base de datos de tres archivos y probamos la capacidad de un oligo A ‘ ligado a biotina para unir y separar el archivo A en un rango de temperaturas de 25 a 75 °C (Fig. 6a, parte inferior, sin cerradura). Aproximadamente el 50% de los filamentos del archivo A se separaron con éxito de la base de datos. Para bloquear el archivo A, separamos el archivo A de la base de datos de tres archivos y mezclamos en un ssDNA largo de 50 nt (bloqueo) que tenía una secuencia complementaria de 20 nt al saliente del ssDNA del archivo A. Con el bloqueo en su lugar, oligo A’ ya no podía separar el archivo excepto a temperaturas más altas por encima de los 45 °C (Fig. 6a, fondo, sin llave), presumiblemente porque la cerradura se derritió del voladizo, lo que permitió a oligo A’ competir para unir el voladizo. Para desbloquear el archivo, agregamos la llave que era un ssDNA de 50 nt totalmente complementario al bloqueo. Probamos diferentes temperaturas de desbloqueo y descubrimos que la llave era capaz de quitar la cerradura a temperatura ambiente con la misma eficiencia que a temperaturas más altas. Esto es probablemente debido a la larga llave de 30 nt que presenta el candado, lo que permite que la llave descomprima el candado del archivo A. También optimizamos las relaciones molares relativas (archivo A: lock: key: oligo A’ = 1: 10: 10: 15) para minimizar la separación fuera del objetivo y garantizar un bloqueo adecuado. Observamos que la temperatura a la que se añadió la cerradura influyó en la fidelidad del proceso de bloqueo. A 98 ° C, el proceso de bloqueo funcionó bien. Cuando se añadió la cerradura a 25 °C, se produjo una separación con fugas incluso cuando no se añadió ninguna llave (Suplemento Fig. 7). Esto puede deberse a estructuras secundarias que impiden que algunas hebras de lima A se hibriden con cerraduras a bajas temperaturas. Afortunadamente, el bloqueo a 45 °C tenía un rendimiento razonable, evitando así la necesidad de elevar el sistema a 98 °C. En el contexto de un futuro sistema de almacenamiento de ADN, los archivos primero se podían separar y luego bloquear a una temperatura elevada, y luego regresar a la base de datos, evitando así la exposición de toda la base de datos a temperaturas elevadas. De lo contrario, todo el proceso podría realizarse a temperatura ambiente.
También implementamos el cambio de nombre y eliminación de archivos. Para cambiar el nombre de un archivo con dirección A para que tenga dirección B, mezclamos el archivo A con un ssDNA de 40 nt que se une a A, con el saliente resultante como dirección B (Fig. 6b). Agregamos todos los componentes en proporciones similares al proceso de bloqueo (archivo: renombrar oligo: acceder a oligo = 1: 10: 15) y el renombrado oligo se agregó a 45 °C. Luego probamos cuántos filamentos de archivo podían separarse cada oligo A’, B’ o C’ y descubrimos que el proceso de cambio de nombre bloqueaba completamente a oligos A’ o C’ de separar el archivo (Fig. 6b, abajo). Solo oligo B ‘ fue capaz de separar el archivo, lo que sugiere que casi todas las cadenas fueron renombradas con éxito de A a B. De manera similar, renombramos con éxito el archivo A a C. Basándonos en la capacidad de oligo para renombrar archivos con casi el 100% de finalización, planteamos la hipótesis y, de hecho, encontramos que un pequeño oligo de 20 nt completamente complementario a A podría usarse para bloquear completamente el saliente del archivo A y esencialmente eliminarlo de la base de datos (Fig. 6b, abajo). También se puede extraer un archivo de una base de datos para eliminarlo. Sin embargo, esta forma alternativa de bloqueo de eliminación según sugiere una manera de asegurar que cualquier sobrante de archivo hebras que no fueron completamente extraído no sería falsamente acceder en el futuro.