Stockage dynamique et évolutif de l’information basée sur l’ADN

Les brins d’ADN SS-DSD peuvent être créés efficacement dans un seul pot

Comme les futures bases de données d’ADN seraient composées de plus de 1015 brins distincts 17, nous avons d’abord demandé si les ADN SS-DSD pouvaient être créés de manière à haut débit et parallélisée. Nous avons commandé 160 nucléotides (nt) d’ADN monocaténaire (adNSS) avec une séquence commune de 23 nt qui était encart 20 nt à partir de l’extrémité 3’ (Fig. 1c et 2a, Tableau supplémentaire 1). Cette séquence de 23 nt contenait le promoteur de l’ARN polymérase T7, mais a également été utilisée pour lier une amorce commune pour remplir et convertir l’adNSS en un adNSS-DSD. Ceci a été réalisé par plusieurs cycles de recuit thermique et d’extension de l’ADN polymérase (par exemple, des cycles de PCR mais avec une seule amorce). Cela a abouti à des brins d’ADNSSS-DSD avec un porte-à-faux de 20 nt (Fig. 2a, en haut). Nous avons optimisé le rapport de l’adNSS à l’amorce, le nombre de cycles, ainsi que d’autres paramètres environnementaux (Fig. 2a, Fig. supplémentaire. 1) pour maximiser la quantité d’adNSS convertie en adNSS-DSD. Nous avons constaté que la diminution de l’adNSS:le rapport d’amorçage au-delà de 1:10 a conduit à un changement progressif de la quantité d’adNSS-DSD produite telle que quantifiée par électrophorèse sur gel (Fig. supplémentaire. 1b). Nous avons décidé de travailler de manière conservatrice avec un rapport ssDNA: amorce de 1: 20. À ce rapport, nous avons constaté que seulement 4 cycles de PCR étaient nécessaires pour convertir l’ADNSS en adNSS-DSD, comme le montre le déplacement vers le haut du gel d’ADN (Fig. 2 bis).

Fig. 2: DORIS élimine les interactions non spécifiques et augmente les limites de densité et de capacité.
figure2

une seule extension d’amorce a créé ss-dsDNAs. (En bas) 4 cycles de PCR ont généré la quantité optimale de 160 nt ss-dsDNAs tout en minimisant la production excédentaire d’ADNSS. (à droite) Le gel d’ADN a montré une augmentation marquée de la génération de SS-DSDNA en dessous des rapports adNSS:amorce de 1:10. b Les fichiers individuels peuvent être séparés d’une base de données à trois fichiers créée par une extension d’amorce unique à un pot. Chaque fichier a été lié par son oligo lié à la biotine correspondant, suivi d’une séparation non basée sur la PCR à l’aide de billes magnétiques fonctionnalisées. La spécificité de séparation des fichiers est le pourcentage d’ADN séparé par un fichier A, B ou C tel que mesuré par qPCR. la PCR c (à gauche) mais pas DORIS permettra aux oligos de lier des sites internes hors cible et de produire des produits indésirables. Les gels d’ADN (du milieu) et (à droite) leur fluorescence quantifiée (bleu pour la PCR, rose pour DORIS) ont montré que l’accès par PCR entraînait des amplicons tronqués et indésirables alors que DORIS n’accédait qu’aux brins souhaités. d (à gauche) Les simulations de Monte Carlo ont estimé le nombre d’oligos trouvés qui n’interagiront pas les uns avec les autres ni avec la charge utile des données. 400 000 oligos ont été testés contre différents codages de densité. L’axe des abscisses représente la densité (Eq. (4)), qui est inversement liée à la longueur des mots de code utilisés pour stocker des valeurs de données discrètes sur un octet. Nous avons évalué des longueurs de mots de code de 12 à 4. Pour DORIS, la densité de codage n’a pas été affectée car elle n’a pas besoin de se prémunir contre une liaison indésirable entre les oligos et les charges utiles de données. (à droite) Pour la PCR, le nombre d’oligos qui ne lieront pas la charge utile des données diminue à mesure que la densité des brins augmente, ce qui signifie que moins de fichiers peuvent être stockés, ce qui réduit la capacité globale du système. Pour DORIS, la disponibilité des oligos est indépendante du codage, et la capacité augmente donc avec des codages plus denses. Les valeurs tracées représentent la moyenne arithmétique, et les barres d’erreur représentent la d.s., de trois séparations de fichiers ou simulations répliquées. Les images Gel sont représentatives de trois expériences indépendantes mesurées par RT-QPCR. Les données source sont fournies sous forme de fichier de données source. * Les capacités peuvent être limitées par des limitations de synthèse et de séquençage non prises en compte ici.

Ensuite, nous avons testé si cette méthode pouvait être utilisée pour créer 3 SS-DSDNA distincts dans des réactions à un pot et si chaque ss-dsDNA pouvait alors être séparé spécifiquement du mélange (Fig. 2b). Nous avons mélangé 3 SSDNA distincts « A”, « B” et « C” ensemble, ajouté l’amorce commune et effectué 4 cycles de PCR pour créer les SS-DSDNA (appelés ici fichiers composés d’un seul brin chacun). Nous avons ensuite utilisé 20 oligos d’ADN nt liés à la biotine pour lier chaque ADNSSS-DSD (i.e., chaque fichier, A, B et C a une séquence de surplomb ou une adresse de fichier distincte) et les a séparés du mélange à l’aide de billes magnétiques fonctionnalisées avec de la streptavidine. Chacun de ces oligos n’a pu séparer spécifiquement que leur fichier correspondant sans les deux autres (Fig. 2b, bas, Eq. (1)). Il est important de noter que cette étape de séparation pourrait être réalisée à température ambiante (25 °C) avec seulement des gains minimes observés à des températures de recuit oligo plus élevées de 35 ou 45 °C (Fig. 2, Éq. (2)). La température ambiante et la nature isotherme de cette étape sont utiles pour des systèmes de stockage d’ADN pratiques et pour réduire la dégradation de l’ADN.

Alors que 20 nt est une longueur d’amorce PCR standard, nous avons demandé si l’efficacité de séparation pouvait être modulée par différentes longueurs de porte-à-faux et températures de séparation. Nous avons conçu 5 SS-dsDNAs avec des porte-à-faux de 5 à 25 nt (Fig. 3). Nous avons ensuite séparé chaque brin en utilisant son oligo spécifique lié à la biotine à 15-55 °C. Nous avons observé une efficacité de séparation améliorée pour les oligos plus longs (20mers et 25mers) et à des températures plus basses (15 ° C et 25 ° C, Fig. 3b). Ceci était en accord avec une analyse thermodynamique utilisant le Calculateur des Propriétés des oligonucléotides (Fig. 3c, Méthodes, égaliseurs. (3)–(5))28,29,30.

DORIS augmente les limites de densité et de capacité

Un avantage potentiel des séparations à température ambiante des fichiers est que les parties à double brin des SS-DSDNA restent recuits ensemble et peuvent bloquer la liaison oligo indésirable à toute séquence similaire dans les régions de charge utile de données. La région de charge utile de données est la majorité de la séquence au milieu des SS-dsDNAs qui contient les informations stockées. Pour tester cette hypothèse, nous avons créé deux SS-dsDNAs (Fig. 2c). Un ss-dsDNA avait un surplomb qui reliait oligo A’ et un site de liaison interne pour oligo B’. Nous avons vérifié expérimentalement qu’en utilisant DORIS, seul l’oligo A ’ mais pas l’oligo B’ pouvait séparer le brin. À titre de comparaison, les systèmes basés sur la PCR fondent les DSDNA à chaque cycle, permettant aux amorces de se lier hors cible dans la charge utile de données. Comme prévu, lorsque la PCR a été utilisée, oligo A ’ et oligo B’ se sont liés, oligo B’ produisant des produits tronqués indésirables. Le deuxième brin que nous avons testé avait un site de liaison interne et un porte-à-faux qui étaient tous deux complémentaires de l’oligo C ’. Nous avons montré qu’en utilisant DORIS, oligo C’ ne donnait que le brin intégral. En revanche, lors de l’utilisation de la PCR, oligo C ’ a créé des brins complets et tronqués.

Nous avons ensuite demandé quelles implications cette propriété de blocage de DORIS avait pour le stockage d’informations à base d’ADN. À mesure que la taille des bases de données augmente, intuitivement, la probabilité que des séquences identiques aux séquences d’adresses (surplombs pour DORIS ou sites d’amorces pour PCR) apparaissent dans des régions de charge utile de données augmente. Avec DORIS, ce n’est pas un problème car les oligos sont empêchés de lier les régions de charge utile de données dsDNA. Cependant, en PCR, les amorces lient ces régions de charge utile de données, de sorte que les approches précédentes ont développé des algorithmes de codage qui empêchent les séquences d’amorces (adresses) de se chevaucher avec toute séquence identique ou similaire dans les charges utiles de données11,12, évitant généralement les distances de Hamming dans ~<6. Cela réduit intrinsèquement soit la densité avec laquelle les bases de données peuvent être codées en raison de restrictions sur l’espace de séquence de charge utile de données, soit leur capacité en raison d’une réduction du nombre de séquences d’amorces uniques pouvant être utilisées. La densité est la quantité d’informations stockées par nt (Éq. (6)), et elle diminue au fur et à mesure que des restrictions de codage sont placées limitant les séquences pouvant être utilisées dans la région de charge utile (espace de séquence de diversité inférieur), tandis que la capacité est la quantité totale d’informations pouvant être stockées dans un système (Eq. (7)) et dépend du nombre d’adresses disponibles car elles dictent le nombre de fichiers pouvant être stockés.

Pour montrer ces relations quantitativement, il est actuellement impossible de résoudre analytiquement ou de calculer de manière exhaustive le nombre d’adresses disponibles qui n’interagissent pas avec la région de charge utile de données, même pour des bases de données de taille moyenne. Par conséquent, nous avons effectué des simulations Monte Carlo pour estimer le nombre total d’adresses et de capacités totales réalisables. Les séquences d’adresses étaient (PCR) ou n’étaient pas (DORIS) exclues si elles apparaissaient dans les régions de charge utile de données d’une base de données avec 109 brins d’ADN distincts (Fig. 2d, Méthodes). Pour simplifier l’analyse, nous avons utilisé des mots de code informatiques pour coder la région de charge utile des données. Chaque mot de code est une séquence nt distincte et contient un octet (B) d’informations numériques. La région de la charge utile de données peut être plus dense en informations en réduisant la taille des mots de code afin que plus de mots de code (et d’octets) tiennent dans chaque brin de longueur fixe. Le compromis est que des mots de code plus petits augmenteront également la diversité des séquences des brins (le nombre de séquences distinctes possibles par longueur de brin) en raison de plus de jonctions mot de code-mot de code par brin. Cela augmente le risque d’apparition de séquences similaires dans la charge utile qui entrent en conflit avec les séquences d’adresses.

La simulation a évalué si les séquences d’adresses seraient en conflit avec les séquences de la charge utile. Cependant, pour DORIS, même si les séquences d’adresses étaient en conflit avec la charge utile, ces adresses étaient autorisées. La simulation a donc montré qu’à mesure que la densité d’informations utiles augmentait en réduisant la longueur des mots de code, le nombre d’adresses disponibles ne changeait pas pour DORIS car aucune restriction n’était imposée aux adresses autres que le fait qu’elles ne pouvaient pas être similaires aux autres adresses (Fig. 2d, gauche, rose). De plus, comme prévu, à mesure que la densité d’informations utiles augmentait, la capacité de la base de données augmentait de manière monotone, le nombre d’adresses de fichiers restant le même que le nombre total de brins par fichier (Fig. 2d, à droite, rose). En revanche, pour la PCR, les adresses apparaissant dans n’importe quelle séquence de charge utile de données ont été exclues ; le résultat était que l’augmentation de la densité d’informations de charge utile offrait initialement un avantage mineur pour la capacité globale (Fig. 2d, droite, bleu) mais a finalement conduit à une chute catastrophique de la capacité car le nombre d’adresses qui n’entraient en conflit avec aucune séquence de charge utile est rapidement tombé à zéro (Fig. 2d, gauche, bleu). Alors qu’il est possible d’augmenter le nombre de brins distincts par adresse (i.e., informations par fichier) pour compenser la perte d’adresses, cela entraînerait des fichiers trop volumineux pour être séquencés et décodés en une seule exécution de séquencement17. Il est également important de noter que nos simulations étaient basées sur des densités de mots de code très prudentes et une taille de base de données de seulement 109 brins d’ADN, alors que les futurs systèmes de stockage sont susceptibles de dépasser 1012 brins ou plus. À mesure que les densités de base de données et les espaces de séquence d’ADN augmentent, le nombre d’adresses disponibles pour les systèmes basés sur la PCR diminuera encore davantage tandis que DORIS ne sera pas affectée. Par conséquent, les améliorations théoriques de la capacité et de la densité fournies par DORIS pourraient être d’un ordre de grandeur supérieur à ce qui est estimé dans nos simulations. De plus, DORIS simplifie grandement la conception d’adresses ; la conception d’ensembles d’adresses orthogonales pour des systèmes basés sur la PCR qui n’interagissent pas avec des séquences de charge utile de données deviendra rapidement impossible à calculer pour de grandes tailles de bases de données. En résumé, une base de données composée de SS-DSDNA peut être efficacement créée dans des réactions à un pot, et les surplombs d’ADNSS facilitent une méthode de séparation non basée sur la PCR qui améliore la spécificité de l’adresse et augmente les densités et les capacités théoriques de la base de données.

DORIS permet un accès répétable aux fichiers

La réutilisabilité du système est une exigence clé mais un défi majeur pour l’ingénierie des propriétés dynamiques dans les systèmes de stockage. Dans ce travail, nous nous sommes inspirés des systèmes biologiques naturels où l’information est consultée à plusieurs reprises à partir d’une seule copie permanente de l’ADN génomique par le biais du processus de transcription. Comme le montre la Fig. 3a, l’accès dynamique dans DORIS commence par séparer physiquement un fichier d’intérêt (ss-dsDNAs partageant la même adresse de porte-à-faux) à l’aide d’oligos liés à la biotine et d’une séparation magnétique à base de streptavidine, transcrire in vitro (IVT) l’ADN en RNA31, renvoyer le fichier à la base de données et transcrire l’ARN en ADNc pour une analyse ou un séquençage en aval.

Fig. 3: DORIS imite la transcription naturelle pour accéder à plusieurs reprises à l’information.
figure3

un fichier A a été séparé en utilisant une séparation magnétique non basée sur la PCR tandis que la base de données a été récupérée (Base de données conservée) (n = 3 pour chaque condition). La transcription in vitro à base de T7 a été réalisée directement sur le fichier immobilisé par perle pendant 48 h maximum pour générer de l’ARN. La transcription inverse a converti l’ARN en ADN complémentaire (ADNc) tandis que le fichier A immobilisé a été libéré dans la base de données (fichier conservé) (n = 3 pour chaque condition). b La quantité de base de données conservée (ombrage clair) et de fichier conservé (ombrage foncé) après l’accès au fichier A par oligo A’ a été mesurée par qPCR et représentée en pourcentage de la quantité initiale de chaque fichier qui se trouvait dans la base de données. La spécificité de l’accès aux fichiers est évidente par l’absence des fichiers B et C dans le fichier conservé. La présence de l’ARN polymérase T7 (RNAP) n’a pas affecté la rétention du fichier A. le fichier c A a été consulté à plusieurs reprises 5 fois. Les quantités de fichiers A, B et C dans la base de données ont été mesurées par qPCR et tracées comme la quantité de chaque fichier dans la base de données après chaque exécution (n = 3 pour chaque condition), normalisée à la quantité originale de chaque fichier avant le 1er accès. Les valeurs représentent la moyenne arithmétique. Les barres d’erreur sont s.d., n = le nombre d’accès aux fichiers répliqués. Les données source sont fournies sous forme de fichier de données source.

Nous avons implémenté ce système avec trois SS-DSDNA distincts (A, B et C) représentant collectivement une base de données à trois fichiers, et nous avons accédé au fichier A avec un oligo A’ biotinylé (Fig. 3b & Supplémentaire Fig. 4). Nous avons ensuite mesuré les quantités et les compositions de la « base de données retenue” (ombrage clair) et du « fichier retenu” (ombrage foncé) par qPCR (Eq. (8)). La base de données conservée avait des niveaux plus élevés de fichiers B et C par rapport à A, car certains des brins du fichier A ont été supprimés lors de la séparation magnétique. Le fichier conservé contenait principalement des brins de fichier A, avec un minimum de B ou de C. La meilleure quantité totale nette de fichier A récupéré de la base de données conservée et du fichier conservé représentait environ 90% de ce qui se trouvait à l’origine dans la base de données. Le taux de conservation élevé du fichier A suggère qu’un fichier pourrait être consulté plusieurs fois. Nous avons testé cela en accédant à plusieurs reprises au fichier A cinq fois, et mesuré les quantités et les compositions des fichiers A, B et C dans la base de données après chaque accès (Fig. 3c & Supplémentaire Fig. 4c). Comme prévu, les quantités globales de fichiers B et C ont été maintenues à des niveaux relativement stables dans la base de données. Environ 50% des brins du fichier A sont restés après cinq accès. Les implications pratiques pour les systèmes de stockage d’ADN sont que seulement 2 copies de chaque séquence distincte sont nécessaires dans la base de données initiale pour toutes les 5 fois où elle est consultée (en ignorant les effets des distributions de brins). Il s’agit d’une amélioration par rapport à l’accès aux fichiers basé sur la PCR où de petites aliquotes de la base de données sont prises et amplifiées. Dans ce cas, une copie de chaque séquence distincte est nécessaire pour chaque accès; de plus, contrairement à DORIS, tous les autres fichiers de base de données seront également réduits en abondance même s’ils n’ont pas été consultés. Ainsi, DORIS peut prolonger la durée de vie des bases de données d’ADN et permettre un accès plus fréquent pour la même masse totale d’ADN synthétisé.

Nous avons ensuite demandé comment la réaction IVT pourrait affecter la stabilité de la base de données, car elle est effectuée à une température élevée de 37 ° C et pourrait dégrader l’ADNSS-DSD. Bien que la base de données conservée ne soit pas exposée à l’IVT, le fichier consulté l’est, et la quantité d’ADNSSS-DSD conservée pourrait être affectée par la longueur de l’IVT. En effet, alors que la présence d’ARN polymérase elle-même n’avait aucun effet sur le fichier retenu, la durée du temps IVT diminuait la quantité de fichier retenu (Fig. 3b & Supplémentaire Fig. 4 bis). Il est intéressant de noter que le rappel du fichier conservé à 45 ° C et le fait de le laisser refroidir à la température ambiante ont amélioré le taux de rétention, mais des temps IVT plus longs ont tout de même réduit la rétention globale du fichier (Fig. supplémentaire. 4b). Cela suggère qu’une certaine perte est due aux brins de fichier se détachant des oligos ou des ARN liés aux billes en concurrence avec l’ADNSS-DSD, tandis qu’une certaine perte est due à la dégradation de l’ADN. Comme témoin pour confirmer que l’ADNc ss-DSD ne contamine pas l’ADNc généré à partir de l’ARN transcrit, l’ADNc n’a été obtenu que lorsque l’ARN polymérase a été incluse dans la réaction IVT (Fig. supplémentaire. 4d).

Nous nous sommes ensuite concentrés sur l’évaluation de la qualité et de l’efficacité de l’IVT. Pour vérifier si l’ARN polymérase pourrait créer des transcrits tronqués ou allongés indésirables, nous avons commandé une série de six ADNC avec une plage de longueurs allant de 110 à 180 nt (Fig. 4a& Supplémentaire Fig. 5). Ceux-ci ont été convertis en ss-dsDNA, transcrits en ARN, et transcrits et amplifiés en dsDNA. Des bandes uniformes claires ont été observées pour l’ADNSSS-DSD, l’ARN et l’ADNSSD. L’augmentation du temps IVT a augmenté le rendement en ARN pour tous les modèles (Fig. 4b), bien que seulement 2 h soient suffisants pour obtenir des bandes d’ARN claires (Fig. 4c), et le temps IVT n’a pas affecté la longueur de l’ARN généré. En résumé, les informations peuvent être consultées à plusieurs reprises à partir de ss-dsDNAs par séparation par oligo et IVT.

Fig. 4: La transcription basée sur T7 génère des produits de taille uniforme.
figure4

Six oligos d’adNSS de longueurs différentes ont été conçus pour générer six modèles d’adNSS-DSD avec des longueurs de 180 pb, 160 pb, 140 pb, 130 pb, 120 pb et 110 pb, respectivement. Chaque ADNSSS-DSD comprenait une séquence de liaison d’amorce inverse consensuelle, une séquence de liaison d’amorce T7, une séquence de liaison d’amorce directe et une séquence de charge utile de longueurs variables. Ces modèles d’ADNSSS-DSD ont été transcrits in vitro pendant 8 h, suivis d’une RT-PCR. Les tailles des produits ont été examinées par électrophorèse sur gel d’agarose. b Cours de temps de l’IVT jusqu’à 48 h (n = 3 réactions de l’IVT répliquées pour chaque condition). La quantité de molécules modèles d’ARN et d’ADN a été mesurée par NanoDrop et tracée comme leur rapport. électrophorèse sur gel c des produits d’ARN et d’ADNc après 2 à 48 h d’IVT suivie d’une RT-PCR. Les valeurs tracées représentent la moyenne arithmétique, et les barres d’erreur représentent le s.d., de trois réactions IVT indépendantes. Les images de gel sont représentatives pour trois expériences indépendantes mesurées par RT-QPCR. Les données source sont fournies sous forme de fichier de données source.

La transcription peut être réglée par séquence promotrice

Des travaux récents sur le stockage d’informations moléculaires ont démontré l’utilité de stocker des informations supplémentaires dans la composition de mélanges de molécules distinctes, y compris DNA32,33. Comme les informations auxquelles accède DORIS reposent sur l’ARN polymérase T7, et qu’il existe des preuves que des variants du promoteur T7 peuvent affecter l’efficacité de la transcription 34,35, 36, 37, 38, nous avons demandé si le rendement de la transcription basée sur T7 pouvait être modulé par des séquences nucléotidiques spécifiques autour de la région du promoteur T7 tout en maintenant le promoteur lui-même constant pour permettre la génération d’ADNS-DSD à un pot (Fig. 2 bis, b). Pour répondre de manière globale à cette question, nous avons conçu et commandé 1088 brins distincts de 160 nt en tant que piscine oligo. Les 1024 premiers brins contenaient toutes les 5 séquences variant nt possibles en amont de la séquence promotrice (NNNNN-Promoteur, N est chacun des quatre nucléotides), et les 64 dernières séquences étaient toutes 3 séquences variant nt en aval du promoteur (Promoteur-NNN, Fig. 5 bis). Comme les nucléotides NNNNN étaient situés dans le surplomb de l’adNSS, nous avons également demandé si cette région simple et double brin avait un impact sur l’efficacité transcriptionnelle relative. Nous avons d’abord créé l’adNSS-DSD par extension d’amorce et l’adNSS par PCR du pool oligo d’adNSS. Les bases de données ss-dsDNA et dsDNA ont été traitées avec une IVT à 37 ° C pendant 8 h, suivie d’une RT-PCR et d’un séquençage de nouvelle génération. Des codes-barres courts ont été conçus dans la région de la charge utile pour identifier de quelle variante promotrice chaque transcription séquencée était dérivée.

Fig. 5: L’efficacité de la transcription basée sur T7 peut être contrôlée par les séquences environnantes.
figure5

un pool oligo contenant 1088 séquences distinctes a été conçu pour générer des modèles d’ADNSSS-DSD. Les 1024 premières séquences contenaient toutes les combinaisons possibles de nucléotides en amont de la séquence promotrice (NNNNN-T7, où N est l’un des quatre nucléotides d’ADN), alors que les 64 dernières séquences présentaient toutes les combinaisons possibles de nucléotides en aval de la région promotrice (T7-NNN). Chaque séquence contenait un code-barres permettant d’identifier la séquence des nucléotides variant. Les SS-DSDNAS modèles ont été traités avec IVT pendant 8 h, suivis d’une RT-PCR et d’un séquençage de nouvelle génération (n = 3 pour chaque condition). b L’efficacité de transcription des deux plans de séquences a été tracée en normalisant le nombre de lectures de chaque brin transcrit à son abondance dans la bibliothèque d’origine. Les données ont été organisées de l’abondance normalisée la plus faible à la plus élevée pour les deux modèles. c Les séquences ont ensuite été divisées en quatre quartiles en fonction de l’abondance normalisée des transcriptions et analysées par l’outil WebLogo. d L’abondance normalisée de chaque séquence a été organisée par pourcentage A/T. Les valeurs de P entre chaque groupe ont été calculées à l’aide d’ANOVA unidirectionnelle avec Tukey-Kramer post–hoc et énumérées ici pour la signification statistique. NNNNN-T7: valeurs de p inférieures à 0,01 pour les comparaisons entre 0% -100%, 80% -100% et 20% -80%; valeurs de p inférieures à 0,001 pour les comparaisons entre 20%-100%, 40%-80%, 40%-100%, 60%-80% et 60% -100%; T7-NNN, valeurs de p inférieures à 0,05 pour des comparaisons entre 33% -100%, 0% -100% et 0% -66%. e Le pourcentage d’erreur pour chaque position de séquence d’ADN pour la base de données synthétisée d’origine (à gauche) et la base de données transcrite (à droite). Le taux d’erreur a été calculé en divisant le nombre d’erreurs d’un type donné survenant à une position nucléotidique par le nombre total de lectures pour cette séquence (Méthode supplémentaire). Les valeurs tracées représentent la moyenne arithmétique, et les barres d’erreur représentent le s.d., de trois échantillons indépendants IVT-RT-PCR-NGS. Les données source sont fournies sous forme de fichier de données source.

L’abondance de chaque séquence de transcription distincte a été normalisée à son abondance dans l’adNAN ss-DSD original (Fig. 5b) ou ADNc (Fig. supplémentaire. 6a) base de données (Éq. (9)). Une gamme large et presque continue d’abondances normalisées a été obtenue, ce qui indique que cette approche pourrait être exploitée pour créer des mélanges complexes de composition d’ADN à l’avenir. Pour déterminer s’il existe des principes de conception simples décrivant l’efficacité du promoteur, nous avons segmenté les 1088 séquences en quartiles en fonction de l’abondance de la transcription et importé les données dans l’outil weblogo39. Nous avons constaté que G ou A à la 5ème position directement en amont et C ou T à la 3ème position directement en aval du promoteur T7 entraînaient généralement les abondances d’ARN les plus élevées (Fig. 5c). La segmentation des données par teneur en A / T a montré qu’il y avait une légère préférence pour ~ 50% de teneur en A / T en amont du promoteur T7 et une préférence pour une faible teneur en A / T globale en aval du promoteur T7 (Fig. 5d).

Cette expérience de séquençage de nouvelle génération a également fourni la certitude que DORIS est évolutive pour des pools d’adNSS-DSD vastes et complexes. De plus, l’analyse des erreurs des lectures de séquençage n’a révélé aucune suppression, troncature ou substitution systématique, et les niveaux d’erreur globaux étaient bien inférieurs à ceux déjà présents lors de la synthèse de l’ADN (Fig. 5e).

DORIS permet des opérations de fichiers en stockage

De nombreux systèmes de stockage d’informations inorganiques, même des archives de stockage à froid, conservent la capacité de manipuler dynamiquement des fichiers. Des capacités similaires dans les systèmes basés sur l’ADN augmenteraient considérablement leur valeur et leur compétitivité. Les porte-à-faux de l’ADNS ssDNA ont déjà été utilisés pour exécuter des calculs dans le contexte des commutateurs d’accès 40, 41, 42, 43, et nous avons donc émis l’hypothèse qu’ils pourraient être utilisés pour implémenter des opérations de fichiers en stockage. Comme preuve de principe, nous avons mis en œuvre le verrouillage, le déverrouillage, le renommage et la suppression de fichiers et montré que ces opérations pouvaient être effectuées à température ambiante (Fig. 6).

Fig. 6: Les Toeholds permettent les opérations de fichiers dans le stockage.
figure6

un schéma (en haut) des opérations de verrouillage et de déverrouillage des fichiers en stockage. (En bas) Tente d’accéder au fichier A par DORIS sans verrouillage (No-Lock), avec verrouillage mais sans clé (No-Key), ou avec verrouillage et clé ajoutés à différentes températures (orange) (n = 3 pour chaque condition). La serrure a été ajoutée à 98 °C. La clé a été ajoutée à différentes températures (orange) puis refroidie à 14 °C (n = 3 pour chaque condition). Oligo A’ a été ajouté à différentes températures d’accès de 25, 35, 45 ou 75 °C pendant 2 min, suivi d’une chute de température de 1 °C/min à 25 °C (n = 3 pour chaque condition). L’efficacité de séparation est la quantité de fichier A récupérée par rapport à sa quantité d’origine, telle que mesurée par qPCR. b (En haut) Schéma des opérations de renommage et de suppression. Le fichier A a été modifié en renommant ou en supprimant oligos. (En bas) L’achèvement de chaque opération a été testé en mesurant la quantité de fichier séparée par chaque oligo individuel: A ’, B’ ou C’. L’efficacité de la séparation est la quantité de fichier A séparée par rapport à sa quantité d’origine dans la base de données, telle que mesurée par qPCR. Aucun Mod (aucune modification / opération de fichier). Les valeurs tracées représentent la moyenne arithmétique, et les barres d’erreur représentent la d.s., de trois opérations/séparations de fichiers répliqués indépendantes. Les données source sont fournies sous forme de fichier de données source.

Nous avons commencé avec la base de données à trois fichiers et avons testé la capacité d’un oligo A’ lié à la biotine à lier et séparer le fichier A à une plage de températures allant de 25 à 75 ° C (Fig. 6a, en bas, pas de verrou). Environ 50% des brins du fichier A ont été séparés avec succès de la base de données. Pour verrouiller le fichier A, nous avons séparé le fichier A de la base de données à trois fichiers et mélangé dans un long ssDNA (verrou) de 50 nt qui avait une séquence complémentaire de 20 nt au surplomb de l’adNSS du fichier A. Avec le verrou en place, oligo A ’ n’était plus en mesure de séparer le fichier sauf à des températures plus élevées supérieures à 45 ° C (Fig. 6a, en bas, sans clé), probablement parce que la serrure a été fondue à partir du porte-à-faux, permettant à oligo A ’ de rivaliser pour lier le porte-à-faux. Pour déverrouiller le fichier, nous avons ajouté la clé qui était un ssDNA 50 nt entièrement complémentaire à la serrure. Nous avons testé différentes températures de déverrouillage et avons constaté que la clé était capable de retirer la serrure à température ambiante avec la même efficacité qu’à des températures plus élevées. Cela est probablement dû au long toehold de 30 nt présenté par la serrure, permettant à la clé de décompresser la serrure du fichier A. Nous avons également optimisé les rapports molaires relatifs (fichier A: lock:key: oligo A’ = 1: 10: 10: 15) pour minimiser la séparation hors cible et assurer un verrouillage approprié. Nous avons observé que la température à laquelle la serrure a été ajoutée a influencé la fidélité du processus de verrouillage. À 98 ° C, le processus de verrouillage a bien fonctionné. Lorsque la serrure a été ajoutée à 25 °C, il y avait une séparation étanche même si aucune clé n’était ajoutée (Fig. 7). Cela peut être dû à des structures secondaires empêchant certains brins de fichier A de s’hybrider avec des mèches à basse température. Heureusement, le verrouillage à 45 ° C avait des performances raisonnables, évitant ainsi la nécessité d’élever le système à 98 ° C. Dans le cadre d’un futur système de stockage d’ADN, les fichiers pouvaient d’abord être séparés puis verrouillés à une température élevée, puis renvoyés dans la base de données, évitant ainsi l’exposition de l’ensemble de la base de données à des températures élevées. L’ensemble du processus pourrait autrement être effectué à température ambiante.

Nous avons également implémenté le renommage et la suppression de fichiers. Pour renommer un fichier avec l’adresse A pour avoir l’adresse B, nous avons mélangé le fichier A avec un ssDNA 40 nt qui se lie à A, le porte-à-faux résultant étant l’adresse B (Fig. 6b). Nous avons ajouté tous les composants à des rapports similaires au processus de verrouillage (fichier: renommer oligo: accéder à oligo = 1: 10: 15) et le renommage oligo a été ajouté à 45 ° C. Nous avons ensuite testé le nombre de brins de fichier que chaque oligo A’, B’ ou C’ pouvait séparer et nous avons constaté que le processus de renommage empêchait complètement les oligos A’ ou C’ de séparer le fichier (Fig. 6b, en bas). Seul oligo B’ a pu séparer le fichier, ce qui suggère que presque tous les brins ont été renommés avec succès de A à B. De même, nous avons renommé avec succès le fichier A en C. Sur la base de la capacité d’oligos à renommer des fichiers avec un taux d’achèvement proche de 100%, nous avons émis l’hypothèse et constaté qu’un oligo court de 20 nt entièrement complémentaire à A pouvait être utilisé pour bloquer complètement le porte-à-faux du fichier A et le supprimer essentiellement de la base de données (Fig. 6b, en bas). Un fichier peut également être simplement extrait d’une base de données pour le supprimer également. Cependant, cette forme alternative de suppression basée sur le blocage suggère un moyen de s’assurer que les brins de fichiers restants qui n’ont pas été complètement extraits ne seraient pas consultés de manière abusive à l’avenir.

Related Posts

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *