ss-dsDNA prameny mohou být účinně vytvořeny v jednom-hrnec
Jako budoucí databáze DNA by se skládala z více 1015 odlišné strands17, jsme se poprvé zeptal, jestli ss-dsDNAs by mohly být vytvořeny na vysokou propustnost a paralelizovat způsobem. Objednali jsme si 160 nukleotidů (nt) jednořetězcovou Dna (ssDNA) se společným 23 nt sekvenci, která byla vložka 20 nt od 3′ konce (Obr. 1C a 2a, doplňková Tabulka 1). Tato 23 NT sekvence obsahovala promotor polymerázy T7 RNA, ale byla také použita k vázání běžného primeru k vyplnění a přeměně ssDNA na ss-dsDNA. Toho bylo dosaženo několika cykly tepelného žíhání a prodloužení DNA polymerázy (např. PCR cykly, ale pouze s jedním primerem). To mělo za následek prameny ss-dsDNA s převisem 20 nt (obr. 2a, top). Optimalizovali jsme poměr ssDNA k primeru, počet cyklů spolu s dalšími parametry prostředí (obr. 2a, Doplňkový obr. 1) maximalizovat množství ssDNA převedené na ss-dsDNA. Zjistili jsme, že snížení ssDNA:poměr primeru kolem 1: 10 vedl ke změně kroku v množství ss-dsDNA vyrobeného kvantifikovaného gelovou elektroforézou (Doplňkový obr. 1b). Rozhodli jsme se konzervativně pracovat s poměrem 1:20 ssDNA: primer. V tomto poměru jsme zjistili, že k přeměně ssDNA na ss-dsDNA byly zapotřebí pouze 4 PCR cykly, jak je vidět na posunu dna gelu směrem nahoru (obr. 2a).
Dále jsme testovali, zda tato metoda by mohla být použita k vytvořit 3 odlišné ss-dsDNAs v one-pot reakcí a pokud každý ss-dsDNA by pak mohl být speciálně odděleny od směsi (Obr. 2b). Smíchali jsme 3 odlišné ssDNA“ A“,“ B „A“ C “ dohromady, přidali společný primer a provedli 4 PCR cykly pro vytvoření ss-dsDNA (zde označované jako soubory složené pouze z jednoho jedinečného vlákna). Poté jsme použili biotinem vázané 20 NT DNA oligos vázat každou ss-dsDNA (tj., každý soubor, A, B A C má zřetelnou převislou sekvenci nebo adresu souboru) a oddělil je od směsi pomocí magnetických kuliček funkcionalizovaných streptavidinem. Každý z těchto oligos byl schopen specificky oddělit pouze svůj odpovídající soubor bez dalších dvou (obr. 2b, dno, Eq. (1)). Důležité je, že tento separační krok mohl být proveden při pokojové teplotě (25 °C) s pouze minimálními zisky pozorovanými při vyšších teplotách žíhání oligo 35 nebo 45 °C (Doplňkový obr. 2, Eq. (2)). Pokojová teplota a izotermická povaha tohoto kroku jsou užitečné pro praktické systémy ukládání DNA a pro snížení degradace DNA.
zatímco 20 nt je standardní délka primeru PCR, zeptali jsme se, zda by účinnost separace mohla být modulována různými délkami převisu a separačními teplotami. Navrhli jsme 5 ss-dsDNA s převisy 5-25 nt (Doplňkový obr. 3). Pak jsme oddělili každý pramen pomocí jeho specifického biotinem vázaného oliga při 15-55 °C. Pozorovali jsme zvýšenou účinnost separace pro delší oligos (20mers a 25mers) a při nižších teplotách (15 °C a 25 °C, Doplňkový Obr. 3b). To bylo v souladu s termodynamickou analýzou pomocí kalkulačky vlastností oligonukleotidů (Doplňkový obr. 3c, metody, NEQ. (3)–(5))28,29,30.
DORIS zvyšuje hustota a kapacita limity
Jeden potenciální výhodou pokojové teplotě, separace souborů je, že double-stranded části ss-dsDNAs zůstávají žíhaný dohromady a může blokovat nežádoucí oligo vazby na jiné podobné sekvence v datovém zatížení regionů. Oblast užitečného zatížení dat je většinou sekvence uprostřed ss-dsDNA, která obsahuje uložené informace. Pro testování této hypotézy jsme vytvořili dvě ss-dsDNA (obr. 2c). Jedna ss-dsDNA měla převis, který vázal oligo A ‚a vnitřní vazebné místo pro oligo B‘. Experimentálně jsme ověřili, že pomocí DORIS, pouze oligo A „ale ne oligo B“ mohl oddělit pramen. Pro srovnání, systémy založené na PCR taví dsDNA v každém cyklu, což umožňuje primerům vázat off-target v datovém užitečném zatížení. Jak se dalo očekávat, při PCR byla použita, jak oligo‘ a oligo B‘ vázán, s oligo B‘ produkující nežádoucí zkrácen produkty. Druhý řetězec, který jsme testovali, měl vnitřní vazebné místo a převis, které oba doplňovaly oligo C‘. Ukázali jsme, že pomocí DORIS, oligo C‘ přinesl pouze celovečerní pramen. Naproti tomu při použití PCR vytvořil oligo C ‚ jak plné délky, tak zkrácené prameny.
dále jsme se zeptali, jaké důsledky má tato blokovací vlastnost DORIS pro ukládání informací založených na DNA. Jako databází, zvýšení velikosti, intuitivně pravděpodobnost sekvence totožná s adresou sekvence (buď převisy pro DORIS nebo primer místa pro PCR), která v data payload regiony se zvyšuje. U DORIS to není problém, protože oligos jsou blokovány ve vazbě oblastí užitečného zatížení dat dsDNA. Nicméně, v PCR, primery udělat bind tyto údaje užitečné zatížení regionů, takže předchozí přístupy vyvinuli kódování algoritmy, které omezují primer sekvence (adresy) z překrývajících se jakékoli shodné nebo podobné sekvence v datovém payloads11,12, obvykle vyhnout Hammingovy Vzdálenosti v ~<6. To neodmyslitelně snižuje buď hustotu, s jakou mohou být databáze kódovány kvůli omezením prostoru sekvence užitečného zatížení dat, nebo jejich kapacita v důsledku snížení počtu jedinečných sekvencí primerů, které lze použít. Hustota je množství informací uložených na nt (Eq. (6)), a to snižuje, jak kódování omezení jsou umístěny omezuje to, co sekvence může být použit v zatížení regionu (nižší rozmanitost prostoru sekvence), zatímco kapacita je celkové množství informací, které mohou být uloženy v systému (Eq. (7)) a závisí na počtu dostupných adres, protože diktují počet souborů, které lze uložit.
ukázat tyto vztahy kvantitativně, je v současné době neřešitelné analyticky vyřešit, nebo komplexně spočítat počet adres k dispozici, které nemusí pracovat s daty, datová část regionu, a to i pro středně velké databáze. Proto jsme provedli simulace Monte Carlo, abychom odhadli celkový počet adres a celkové dosažitelné kapacity. Adresa sekvence (PCR) nebo nebylo (DORIS) vyloučeno, pokud by se objevily v datové náklad regiony databáze s 109 odlišné DNA (Obr. 2d, metody). Pro zjednodušení analýzy jsme použili výpočetní kódová slova pro kódování oblasti užitečného zatížení dat. Každé kódové slovo je odlišná sekvence nt a obsahuje jeden bajt (B) digitálních informací. Oblast užitečného zatížení dat může být více informací hustá zmenšením velikosti kódových slov, takže více kódových slov (a bajtů) se vejde do každého řetězce s pevnou délkou. Kompromis je, že menší kódových slov bude také zvýšit sekvence rozmanitosti pramenů (počet možných různých sekvencí za pramen délka), vzhledem k více kódové slovo-kód křižovatek za pramen. To zvyšuje pravděpodobnost, že se podobné sekvence objeví v užitečném zatížení, které je v rozporu s adresními sekvencemi.
simulace vyhodnotila, zda by adresové sekvence byly v rozporu se sekvencemi v užitečném zatížení. Nicméně, pro DORIS, i když adresní sekvence v rozporu s užitečným zatížením, tyto adresy byly povoleny. Simulace tedy ukázala, že jako payload informace hustota byla zvýšena zmenšením kódové slovo délky, počet adres k dispozici, se nemění pro DORIS jako žádná omezení byly umístěny na adresy jiné, než že jim nebylo umožněno být podobné jiné adresy (Obr. 2d, levý, růžový). Také podle očekávání, jak se zvýšila hustota informací o užitečném zatížení, se kapacita databáze monotónně zvýšila, protože počet adres souborů zůstal stejný jako celkový počet pramenů na soubor (obr. 2d, vpravo, růžový). Naproti tomu pro PCR byly vyloučeny adresy, které se objevily v jakékoli sekvenci užitečného zatížení dat; výsledkem bylo, že zvýšení hustoty informací o užitečném zatížení zpočátku poskytovalo malou výhodu celkové kapacitě (obr. 2d, vpravo, modrá), ale nakonec vedlo ke katastrofickému poklesu kapacity, protože počet adres, které nebyly v rozporu s žádnou sekvencí užitečného zatížení, rychle klesl na nulu (obr. 2d, levý, modrý). I když je možné zvýšit počet odlišných pramenů na adresu (tj. informace na soubor), aby se za ztráty adresy, to by mělo za následek soubory příliš velké, aby být sekvenován, a dekódované v jediném sekvenování run17. Je také důležité si uvědomit, že naše simulace byly založeny na velmi konzervativní kódové slovo hustoty a velikosti databáze pouze 109 DNA, zatímco budoucí úložné systémy jsou pravděpodobně vyšší než 1012 prameny nebo větší. Jak se hustoty databáze a prostory sekvencí DNA zvyšují, počet adres dostupných pro systémy založené na PCR bude ještě klesat, zatímco DORIS nebude ovlivněna. Teoretická vylepšení kapacity a hustoty, která DORIS poskytuje, by proto mohla být řádově větší, než se odhaduje v našich simulacích. Kromě toho, DORIS výrazně zjednodušuje řešení designu; navrhování sady ortogonální adresy pro PCR-based systémy, které nejsou v interakci s daty náklad sekvence se rychle stane výpočetně neřešitelné při velké velikosti databáze. V souhrnu, databáze složené z ss-dsDNAs může být účinně vytvořeny v one-pot reakcí, a ssDNA přesahy usnadnit non-založené na PCR separační metoda, která zvyšuje adresu specifičnost a zvyšuje teoretické databáze hustoty a kapacity.
DORIS umožňuje opakovatelný přístup k souborům
klíčovým požadavkem, ale hlavní výzvou pro inženýrství dynamických vlastností do úložných systémů je opětovná použitelnost systému. V této práci jsme se inspirovali přirozenými biologickými systémy, kde jsou informace opakovaně přístupné z jediné trvalé kopie genomové DNA prostřednictvím procesu transkripce. Jak je znázorněno na obr. 3a, dynamický přístup v DORIS začíná tím, že fyzicky oddělí souboru zájmu (ss-dsDNAs sdílení stejný převis adresu) pomocí biotin-spojené oligos a streptavidin založené na magnetické separaci, in vitro transkripci (IVT) DNA RNA31, vrácení souboru do databáze a zpětný přepis RNA do cDNA pro následné analýzy nebo sekvenování.
Jsme zavedli tento systém se třemi odlišnými ss-dsDNAs (A, B, a C) souhrnně představují tři-soubor databáze, a máme přístup k souboru s biotinylated oligo (Obr. 3b & Doplňkový Obr. 4). Poté jsme měřili množství a složení „zachované databáze“ (stínování světla) a „zachovaného souboru“ (tmavé stínování) pomocí qPCR (Eq. (8)). Zachovaná databáze měla vyšší úrovně souborů B A C ve srovnání s A, protože některé prameny souboru a byly odstraněny v magnetické separaci. Nerozdělený soubor obsahuje především soubor pramenů, s minimálním B nebo C. nejlepší čistá celková částka souboru se zotavil z nerozděleného databáze a uchovávaný soubor je přibližně 90% z toho, co bylo původně v databázi. Vysoká míra retence souboru a naznačovala, že soubor může být opakovaně přístupný vícekrát. Testovali jsme to opakovaným přístupem k souboru a pětkrát a po každém přístupu změřili množství a složení souboru a, B A C v databázi (obr. 3c & Doplňkový Obr. 4c). Jak se očekávalo, celkové množství souborů B A C bylo v databázi udržováno na relativně stabilní úrovni. Přibližně 50% pramenů souboru a zůstalo po pěti přístupech. Praktické důsledky pro DNA úložných systémů je, že pouze 2 kopie každého odlišné sekvence jsou zapotřebí v počáteční databáze pro každých 5 krát je přístupné (ignoruje účinky pramen distribuce). Jedná se o zlepšení oproti přístupu k souborům založeným na PCR, kde jsou odebírány a zesíleny malé alikvoty databáze. V tomto případě je pro každý přístup zapotřebí jedna kopie každé odlišné sekvence; navíc, na rozdíl od DORIS, všechny ostatní databázové soubory budou podobně sníženy v hojnosti, i když nebyly přístupné. DORIS tak může prodloužit životnost databází DNA a umožnit častější přístup ke stejné celkové hmotnosti syntetizované DNA.
dále jsme se zeptali, jak může IVT reakce ovlivnit stabilitu databáze, protože se provádí při zvýšené teplotě 37 °C a může degradovat ss-dsDNA. Zatímco zachován databáze není vystavena IVT, přístupné soubor je, a částka ss-dsDNA udržel by mohla být ovlivněna délka IVT. Ve skutečnosti, zatímco přítomnost samotné RNA polymerázy neměla žádný vliv na zadržený soubor, Délka IVT času snížila množství zadrženého souboru (obr. 3b & Doplňkový Obr. 4a). Zajímavé je, reannealing nerozděleného souboru na 45 °C a dovolit tomu se ochladit zpět na teplotu místnosti lepší udržení míru, ale delší IVT době stále snižuje celkový soubor uchovávání (Doplňkový Obr. 4b). To naznačuje, že určitá ztráta je způsobena oddělením pramenů souborů z oligos nebo RNA vázaných na korálky, které soutěží s ss-dsDNA, zatímco určitá ztráta je způsobena degradací DNA. Jako kontrola k potvrzení, že ss-dsDNA nebyla kontaminace cDNA vytvořené z transkribovaných RNA, cDNA byla získána pouze tehdy, když RNA polymeráza byla zařazena do IVT reakce (Doplňkový Obr. 4d).
dále jsme se zaměřili na hodnocení kvality a účinnosti IVT. Abychom zkontrolovali, zda RNA polymeráza může vytvářet nežádoucí zkrácené nebo protáhlé transkripty, objednali jsme sérii šesti ssDNA s rozsahem délek 110-180 nt (obr. 4a & Doplňkový Obr. 5). Ty byly převedeny na ss-dsDNA, přepsány do RNA, a reverzní transkribovány a amplifikovány do dsDNA. Pro ss-dsDNA, RNA a dsDNA byly vidět jasné jednotné pásy. Zvýšení doby IVT zvýšilo výnos RNA pro všechny šablony (obr. 4b), i když jen 2 h stačily k získání jasných pásem RNA (obr. 4c) a IVT čas neovlivnil délku generované RNA. Stručně řečeno, informace lze opakovaně přistupovat z ss-dsDNA separací na bázi oligo a IVT.
Transkripce může být naladěn podle promotor sekvence
Poslední funguje na molekulární ukládání informací prokázaly užitečnost ukládání dodatečných informací ve složení směsi různých molekul, včetně DNA32,33. Jako informace přístupné DORIS spoléhá na T7 RNA polymerázy, a tam je důkaz, že T7 promotor varianty mohou ovlivňovat transkripci efficiency34,35,36,37,38, jsme se zeptali, zda výnos z T7 na bázi přepis může být upravována podle konkrétní nukleotidové sekvence kolem T7-promotor regionu při zachování pořadatel sám neustálé aby pro one-pot ss-dsDNA generace (Obr. 2a, b). Abychom tuto otázku komplexně vyřešili, Navrhli jsme a objednali 1088 zřetelných 160 NT pramenů jako oligo bazén. Prvních 1024 pramenů obsahovala všechny možné 5 nt varianta sekvence upstream promotor sekvence (NNNNN-Promotér, N je každý ze čtyř nukleotidů), a druhý 64 sekvencí byly všechny 3 nt varianta sekvence downstream od promotoru (Promotor-NNN, Obr. 5a). Jako NNNNN nukleotidy byly umístěny v ssDNA převis, jsme se také zeptal, jestli tento region je jeden pletl, proti dvouvláknové mělo nějaký vliv na relativní transkripční účinností. Nejprve jsme vytvořili ss-dsDNA rozšířením primeru a dsDNA PCR fondu ssDNA oligo. Databáze ss-dsDNA i dsDNA byly zpracovány IVT při 37 °C po dobu 8 hodin, následovalo RT-PCR a sekvenování nové generace. V oblasti užitečného zatížení byly navrženy krátké čárové kódy, aby bylo možné určit, ze které varianty promotoru byl každý sekvenční přepis odvozen.
množství jednotlivých přepis sekvence byla normalizována k jeho množství v původní ss-dsDNA (Obr. 5b) nebo dsDNA (Doplňkový obr. 6a) databáze (ekv. (9)). Byl získán široký a téměř nepřetržitý rozsah normalizovaných hojností, což naznačuje, že tento přístup by mohl být v budoucnu využit k vytvoření složitých kompozičních směsí DNA. Zjistit, zda tam může být jednoduché konstrukční zásady, které popsal pořadatel účinnost, segmentovaný 1088 sekvence do kvartilů na základě přepisu hojnosti a importovat data do WebLogo tool39. Zjistili jsme, že G nebo na 5. pozici přímo proti proudu a C nebo T na 3. místě, ihned za T7 promotor obecně za následek nejvyšší RNA abundances (Obr. 5c). Segmentace údajů podle obsahu A / T ukázala, že existuje mírná preference pro ~50% obsahu A / T před promotorem T7 a preference pro celkový nízký obsah A / T za promotorem T7 (obr. 5d).
Tento sekvenační experiment nové generace také poskytl jistotu, že DORIS je škálovatelná pro velké a komplexní fondy ss-dsDNA. Kromě toho, chybová analýza sekvenční čte uvedeno žádné systematické delece, truncations, nebo substituce, a celkové míry chyb byly mnohem nižší než ty, které již dárek od syntézu DNA (Obr. 5e).
DORIS umožňuje operace souborů v úložišti
mnoho systémů pro ukládání anorganických informací, dokonce i archivy chladného úložiště, udržuje schopnost dynamicky manipulovat se soubory. Podobné schopnosti v systémech založených na DNA by výrazně zvýšily jejich hodnotu a konkurenceschopnost. ssDNA přesahy byly dříve použity k provedení výpočtů v souvislosti se uchytí switches40,41,42,43, a proto jsme předpokládali, že by mohly být použity k provedení v-skladovací operace se soubory. Jako důkaz principu jsme implementovali zamykání, odemykání, přejmenování a mazání souborů a ukázali jsme, že tyto operace lze provádět při pokojové teplotě (obr. 6).
začali Jsme s tři-soubor databáze a testována schopnost biotin-spojené oligo‘ vázat a samostatný soubor A při různých teplotách od 25 do 75 °C (Obr. 6a, dno, bez zámku). Zhruba 50% pramenů souboru a bylo úspěšně odděleno od Databáze. Pro zamknutí souboru, rozdělili jsme soubor ze tří soubor databáze a smíšené v dlouhé 50 nt ssDNA (zámek), který měl 20 nt komplementární sekvence k ssDNA převis souboru, A. S zámek na místě, oligo‘ byl již schopen samostatného souboru až při vyšších teplotách nad 45 °C (Obr. 6a, dolní, ne-key), pravděpodobně proto, že zámek byl roztaven od přesah, což umožňuje oligo‘ soutěžit vázat převis. Chcete-li soubor odemknout, přidali jsme klíč, který byl 50 NT ssDNA plně komplementární k zámku. Testovali jsme různé teploty odemykání a zjistili jsme, že klíč je schopen odstranit zámek při pokojové teplotě se stejnou účinností jako při vyšších teplotách. To je pravděpodobné, že vzhledem k dlouhé 30 nt podklad předložený lock, který umožňuje klíč k rozbalení zámku ze souboru A. Jsme také optimalizována relativní molární poměry (soubor: zámek: klíč: oligo A‘ = 1: 10: 10: 15) aby se minimalizovalo off-target oddělení a zajistit řádné uzamčení. Pozorovali jsme, že teplota, při které byl zámek přidán, ovlivnila věrnost uzamykacího procesu. Při 98 °C fungoval uzamykací proces dobře. Když byl zámek přidán při 25 °C, došlo k netěsnému oddělení, i když nebyl přidán žádný klíč (Doplňkový obr. 7). To může být způsobeno sekundárními strukturami, které brání hybridizaci některých pramenů se zámky při nízkých teplotách. Naštěstí, aretace na 45 °C měl přiměřený výkon, čímž se zabrání třeba povýšit systém na 98 °C. V souvislosti s budoucí DNA úložný systém, soubory by být nejprve odděleny a zamknul při zvýšené teplotě, pak se vrátil do databáze, čímž se zabrání vystavení celé databáze na zvýšených teplotách. Celý proces by jinak mohl být proveden při pokojové teplotě.
implementovali jsme také přejmenování a mazání souborů. Chcete-li přejmenovat soubor s adresou a, aby měl adresu B, smíchali jsme soubor a se 40 NT ssDNA, který se váže na A, přičemž výsledný převis je adresa B (obr. 6b). Přidali jsme všechny komponenty v podobných poměrech k procesu uzamčení (soubor: přejmenování oligo: přístup k oligo = 1: 10: 15) a přejmenování oligo bylo přidáno při 45 °C. Pak jsme testovali, kolik souboru pramenů každý oligo A‘, B‘, C‘ mohla oddělit a zjistil, že proces přejmenování zcela zablokován oligos‘ nebo C‘ z vyčlenění souboru (Obr. 6b, dole). Pouze oligo B ‚ byl schopen oddělit soubor, což naznačuje, že téměř všechny prameny byly úspěšně přejmenovány z A na B. podobně, úspěšně jsme přejmenovali soubor a na C. Založen na schopnosti oligos, abyste přejmenovat soubory, s téměř 100% dokončení, my jsme předpokládali, a skutečně zjištěno, že krátké 20 nt oligo plně doplňovat A může být použit zcela zablokovat přesah souboru a v podstatě odstranění z databáze (Obr. 6b, dole). Soubor lze také jednoduše extrahovat z databáze a odstranit jej také. Tato alternativní forma mazání založená na blokování však naznačuje jeden způsob, jak zajistit, aby všechny zbytky pramenů souborů, které nebyly zcela extrahovány, nebyly v budoucnu zvědavě přístupné.