用DNA存储信息能达数万年之久

2013-01-28 10:12 · pobee

EMBL-EBI研究所的研究人员创建了一种可将数字化信息存储数万年之久的新技术,它采用DNA介质,储存规模远远超出全球所有的信息量。该技术可以在大约一杯DNA里存储至少1亿小时的高清视频文件。相关研究结果发表在1月23日《自然》杂志在线版上。

欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)的研究人员创建了一种可将数字化信息存储数万年之久的新技术。其采用DNA作为介质,储存规模远远超出全球所有的信息量。该技术可以在大约一杯DNA里存储至少1亿小时的高清视频文件。相关研究结果发表在1月23日《自然》杂志在线版上。

世界上的数字信息将近3泽字节,即30万亿亿个字节。新的数字内容不断汇集对档案工作者构成了挑战。而硬盘价格昂贵且需要不断的电力供应,即使是最好的“无动力”归档材料如磁带,也会在10年之内“失忆”老化。这在生命科学领域更是一个日益凸显的问题,包括记录大量DNA序列的科学数据卷宗。

EMBL-EBI的尼克•高曼说:“DNA是一种可靠的存储信息方法,因为我们可以从猛犸象的骨头中提取到它,其上的数据可以追溯到几万年之前。而令人难以置信的是它小而密集,不需要任何电源存储,因此传输、保存信息很容易。”

研究人员说,读取DNA是相当简单的,但将它写入是DNA存储成为现实的一个主要障碍。挑战主要来自两方面:首先,目前的方法唯有可能用短字符串加工DNA;其次,写入和读出DNA都很容易出错,尤其是当重复相同的DNA字母时。高曼和该研究的联合作者、EMBL-EBI副主任伊万着手创建了一种代码,以克服存在的问题。

伊万说:“我们知道需要使用唯一的DNA短字符串制作代码,而用这样一个方式创建运行相同的字母是不可能的。所以我们设想,把代码解散成两个方向上的很多重叠的片段,其携带的索引信息可以显示每个片段属于整体哪一部分的代码,然后做一个不允许重复的编码方案。这样一来,在不同的片段就不会出现同样的错误,即便有也非常罕见。”

这种新方法需要合成DNA的编码信息,总部位于加州的安捷伦科技公司自愿提供此服务。伊万和高曼发送其编码的版本包括:马丁•路德•金演讲“我有一个梦想”的MP3,一张EMBL-EBI的JPG照片;沃森和克里克开创性论文“分子结构核酸”的PDF版本;所有莎士比亚十四行诗TXT文本以及描述编码的文件。研究人员说:“我们从网络上下载文件,并用其来合成成千上万的DNA片段,结果看起来像一小块尘埃。安捷伦把合成后的样品邮寄给了EMBL-EBI。”研究人员能够毫无差错地排序DNA和解码文件,准确率可达100%。

高曼说:“我们用分子形式创建了一个容错代码,可以保存数万年,在适当的条件下或可能持续更长时间。只要有人知道代码是什么,并有一台机器可以读出DNA,就能够将原信息读回。”

理论分析表明,以DNA为基础的存储方案在规模上远远超出了目前的全球信息量,并为大规模、长期和不经常访问的数字典藏提供了一个理想的技术。事实上,目前技术进步的趋势是减少DNA合成在速度上的成本,计划在10年内实现50年归档的成本效益。虽然还有很多实际中有待解决的问题,但是DNA固有的密度和“长寿”优势,使之成为一个具有吸引力的存储介质。研究人员的下一步是完善编码方案,并探究其实用性,为商业上可行的DNA存储模型铺平道路。

Towards practical, high-capacity, low-maintenance information storage in synthesized DNA

Nick Goldman,    Paul Bertone,    Siyuan Chen,    Christophe Dessimoz,    Emily M. LeProust,    Botond Sipos    & Ewan Birney

Digital production, transmission and storage have revolutionized how we access and use information but have also made archiving an increasingly complex task that requires active, continuing maintenance of digital media. This challenge has focused some interest on DNA as an attractive target for information storage because of its capacity for high-density information encoding, longevity under easily achieved conditions, and proven track record as an information bearer. Previous DNA-based information storage approaches have encoded only trivial amounts of information, or were not amenable to scaling-up, and used no robust error-correction and lacked examination of their cost-efficiency for large-scale information archival. Here we describe a scalable method that can reliably store more information than has been handled before. We encoded computer files totalling kilobytes of hard-disk storage and with an estimated Shannon information of . ×  bits into a DNA code, synthesized this DNA, sequenced it and reconstructed the original files with % accuracy. Theoretical analysis indicates that our DNA-based storage scheme could be scaled far beyond current global information volumes and offers a realistic technology for large-scale, long-term and infrequently accessed digital archiving. In fact, current trends in technological advances are reducing DNA synthesis costs at a pace that should make our scheme cost-effective for sub--year archiving within a decade.

文献链接Towards practical, high-capacity, low-maintenance information storage in synthesized DNA