利用核酸存储信息的方法

文档序号:8344618阅读:792来源:国知局
利用核酸存储信息的方法
【专利说明】
[0001] 相关申请资料
[0002] 本申请要求于2012年7月19日提交的美国临时申请号61/673, 690和于2012年 7月26日提交的美国临时申请号61/676, 081的优先权,出于所有目的在此通过引用将它们 中的每一个以其整体合并于本文中。
[0003] 政府权益声明
[0004] 在美国海军研宄办公室N000141010144的政府资助下作出本发明。政府对本发明 具有一定的权利。
技术领域
[0005] 本发明总体上涉及利用一个或多个核酸序列存储信息的方法。
【背景技术】
[0006] 1.我们的数字总体正在迅速增长。例如,于2011年产生和复制了 1.8泽字节 (zettabyte) (1021)的信息,并且该量每两年翻一番。参见I. "Extracting Value from Chaos"(IDC, Framingham, MA 2011);环球网站 emc. com/collateral/analyst-reports/ idc-extracting-value-from-chaos-ar. pdf。档案数据存储通常是硬盘驱动器、光学介 质、和磁带的形式,其提供5-30年的推荐的使用寿命。参见2. J. Rothenberg, Scientific American 272,42-47(1995)。随着数字信息不断积累,需要更高的密度和更长期的存储 解决方案。作为用于信息存储的介质,DNA具有许多潜在的优点。参见3. C. Bancroft,T. Bowler, Β· Bloom, C. Τ· Clelland, Science 293, 1763-1765 (2001)。将一般的数字信息编码 成 DNA 的第一个实例是 1988 年的 35 位。参见 7. J. Davis, Art Journal 55,70-74(1996)。 近期工作涉及将数据压缩和加密成DNA(通常限于大写字母)、以及其在活细胞中 的生存力。参见 3、8、和 9. C. Bancroft, T. Bowler, B. Bloom, C.T. Clelland, Science 293, 1763-1765 (2001)、C.Gustafsson,Nature 458,703(2009)、和 D.G. Gibson et al.,Science 329, 52-56(2010)。

【发明内容】

[0007] 本公开内容的实施方式涉及利用核酸序列或包括核苷酸的序列作为用于信息存 储的介质的方法。常见的核苷酸包括A、C、G、和T。本公开内容的方面涉及利用下一代测序 和合成技术耐用、大规模读取和写入数字信息的方法,这样的方法的实例示意性地提供在 图IA中。根据一个方面,将文本和/或图像转换成兆位。根据一个方面,转换成兆位的文本 和/或图像包含位流(比特流,bit stream)。然后,将兆位编码成寡核苷酸。根据一个方 面,寡核苷酸包括数据块序列(data block sequence)。根据一个方面,寡核苷酸包括指明 数据块在位流(比特流)中的位置的地址序列(如条码序列)。根据一个方面,寡核苷酸包 括在寡核苷酸的每个末端用于扩增和测序的旁侧共同序列(flanking common sequence)。 根据一个方面,寡核苷酸包括数据块序列、指明数据块在位流中的位置的地址序列(如条 码序列)、和在寡核苷酸的每个末端用于扩增和测序的旁侧共同序列中的一种或多种或全 部。
[0008] 根据本公开内容的一个方面,编码一位/碱基。根据该方面,可以以多种方式编码 单条信息,即,对于零为A或C,对于数字1为G或T。因此,本公开内容的该方面避免难以 读取或写入的序列特征如极端的GC含量(内容)、重复、或二级结构。
[0009] 根据一个方面,将位流分为寻址数据块。根据该方面,可以避免难以组装的长DNA 构建物。
[0010] 根据一个方面,合成、存储和测序了每个单独寡核苷酸的许多拷贝。因为在合成和 测序中的误差是很少一致的,所以每个分子拷贝纠正在其他拷贝中的误差。
[0011] 根据一个方面,体外进行所述方法。根据该方面,体外方法避免体内方法的克隆和 稳定性问题。
[0012] 根据一个方面,高通量、下一代技术用于DNA合成和测序以允许对大量的信息进 行编码和解码。
[0013] 根据一个方面,提供了一种利用核苷酸存储信息的方法,包括:将信息格式转换成 位流的多个位序列(比特序列,bit sequence),每个位序列具有对应的位条码(比特条码, bit barcode),利用一个位/碱基编码将多个位序列转换成多个对应的寡核苷酸序列,合成 多个对应的寡核苷酸序列,以及存储合成的多个对应的寡核苷酸序列。根据一个方面,寡核 苷酸序列包括数据块序列、指明数据块在位流中的位置的地址序列、或在寡核苷酸的每个 末端用于扩增和测序的旁侧共同序列中的一种或多种或全部。
[0014] 根据一个方面,提供了一种从编码信息格式的位序列的多个合成的寡核苷酸序列 检索信息格式的方法,包括:扩增多个寡核苷酸序列,对扩增的寡核苷酸序列进行测序,将 寡核苷酸序列转换成位序列,以及将位序列转换成信息格式。根据一个方面,寡核苷酸序列 包括数据块序列、指明数据块在位流中的位置的地址序列、或在寡核苷酸的每个末端用于 扩增和测序的旁侧共同序列中的一种或多种或全部。
[0015] 根据一个方面,提供了一种从编码信息格式的位序列的多个合成的寡核苷酸序列 存取信息格式的方法,包括:扩增多个寡核苷酸序列,对扩增的寡核苷酸序列进行测序,将 寡核苷酸序列转换成位序列,将位序列转换成信息格式,以及使信息格式可视化(可见, visualizing)。根据一个方面,寡核苷酸序列包括数据块序列、指明数据块在位流中的位置 的地址序列、或在寡核苷酸的每个末端用于扩增和测序的旁侧共同序列中的一种或多种或 全部。
[0016] 根据一个方面,提供了一种利用核苷酸存储信息的方法,包括:将信息格式转换 成位流,将位序列编码成对应的寡核苷酸序列,合成寡核苷酸序列,对寡核苷酸序列进行测 序,将寡核苷酸序列解码成位序列,将位序列汇编(组装,assembling)成位流以及将位流 转换成信息格式。根据一个方面,寡核苷酸序列包括数据块序列、指明数据块在位流中的位 置的地址序列、或在寡核苷酸的每个末端用于扩增和测序的旁侧共同序列中的一种或多种 或全部。
[0017] 提供了一种利用核苷酸存储信息的方法,包括:将第一信息格式转换成第一位流, 将第一位序列编码成对应的寡核苷酸序列,合成寡核苷酸序列,对寡核苷酸序列进行测序, 将寡核苷酸序列解码成第二位序列,将第二位序列汇编成第二位流以及将第二位流转换成 第二信息格式。根据一个方面,寡核苷酸序列包括数据块序列、指明数据块在位流中的位置 的地址序列、或在寡核苷酸的每个末端用于扩增和测序的旁侧共同序列中的一种或多种或 全部。
[0018] 根据一些方面,使用利用DNA密度的DNA存储信息。根据一些方面,在理论最大 值下,在约4克的钠盐中,DNA可以编码2位/核苷酸(nt)或1.8泽字节。参见4。关于 材料和方法的信息,可在科学在线(Science Online)上获得。根据一些方面,用商用寡核 苷酸大小和本领域技术人员已知的测序技术(48位条码+128位有效负载)可获得毫克的 DNA,并且对于IOOx覆盖,可实现拍字节(petabyte) (1015)。可以将该量存储于1536孔板 以提供艾字节(exabyte),其中一千的那些(0.5m,边立方(side cube))构成泽字节(8x 1〇21位)。可以将存储数据的子集以混合物存储并且通过利用正交(即,最小交叉引发) 旁侧引物分别检索。参见 Church GM, Kieffer-Higgins S(1988)Multiplex Sequencing; 和 Kosuri S,Eroshenko N,LeProust E,Super M,Way J,Li JB,Church GM(2010)A Scalable Gene Synthesis Platform Using High-Fidelity DNA Microchips. Nature Biotech.28 (12):1295_9〇
[0019] 根据一些方面,DNA不需要用于存储的平坦表面,容易保存,并且在几千年以后已 经被恢复D参见 5 和 6D5.J. Bonnet et al·,Nucleic Acids Research 38, 1531-1546 (2010) 和 6. S. P涵b〇 et al. , M. A. Uyterlinde et al. , Eds. Annual Review of Genetics 38,645-679(2004)。根据一些方面,DNA的基本的生物学作用提供进入自然的读取和写入 酶,并且对于可预见的未来,确保DNA将保持可读标准。
【附图说明】
[0020] 从说明性实施方式的以下详细描述连同附图,将更全面地理解本发明的上述和其 他特征和优点,其中:
[0021] 2.图I (A)是DNA信息存储的示意图。将在编码的html (超文本链接标示语言) 书内的句子的12字节部分转换成具有确定编码位在整个书内的位置的19位条码(红色) 的位(蓝色)。然后,利用1位/碱基编码(ac = 0 ;TG = 1)将位序列编码成DNA,同时还 避免4个或更多个核苷酸重复并且平衡GC含量。整个5. 27兆位html书使用54, 898个寡 核苷酸,并且进行合成并从DNA微芯片中洗脱。在扩增(未示出所有寡核苷酸的共同引物 序列)之后,利用下一代测序来对寡核苷酸库测序。针对共有序列(consensus)筛选借助 于正确的条码和长度进行的单个读取,然后重新转换到位,获得原书。总计,写入、扩增、和 读取产生在5. 27兆位外的10位误差(比特误差,bit error)。(B)与其他技术的比较。我 们绘制了如通过报告或商用装置中编码的Iogltl位测定的信息密度(log K1位/_ 3)相对于 目前的可量
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1