科学网

 找回密码
  注册

tag 标签: DNA存储

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

手机容量不够了,换个DNA硬盘试试
CASMART 2017-3-10 16:50
手机容量不够了,换个DNA硬盘试试 来源:Science网站、中国科学报、生物探索、煎蛋网、凤凰资讯等; 编辑:小喀 最讨厌的事情就是在用手机拍照或接受文件时突然发现手机内存不够了! 近几年来手机已经快成为人类生活的必需品了,照片、电影甚至各种办公文件也会存在手机中。尽管手机内存已由原来的4G、16G、64G增加到128G,但还是发现内存不够用。 其实,人类正面临着一个数据存储的问题——全世界在过去两年中产生的数据比之前的数据总和还要多,并且这种信息迸发的趋势很快就将超过硬盘能够承载的能力。 科学家们也一直在研究数据存储的问题,并且已经找到解决存储问题的方法了—DNA生物硬盘。 近日,来自纽约基因组中心和哥伦比亚大学的Yaniv Erlich和Dina Zielinski在Science期刊上发表新技术——DNA喷泉码,让DNA存储的广泛应用又进了一步。 什么是DNA生物硬盘 你可以把它理解为何我们现在用的硬盘一样,只是它的存储介质是DNA而已,并且它的体积要比普通的硬盘小很多、存储能力比普通硬盘大很多。 研究人员把数据中的“1”和“0”字符串转换成DNA序列中的4种碱基——腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),从而进行数据存储。科学家证明他们可以有效地在1克DNA当中存储215PB(2.15 亿千兆字节)数据,原则上,它可以将人类有史以来的所有数据存储在一个大小和重量相当于两辆小货车的容器中。 DNA 存储的原理 视频 DNA 存储的优势 科学家们之所以将DNA作为一种存储媒介是因为DNA存储有各种优势! 第一,占据极少的空间:每个碱基存储一个比特,而一个碱基只有几个原子那么大;第二,超大容量:1克DNA当中存储215PB的数据;第三,超级稳定:只要保持低温干燥和黑暗的环境,DNA可以保存几十万年之久;第四,不会过时:只要人类社会还在读取和书写 DNA,他们就能够解码这些信息;第五,备份容易:DNA可通过聚合酶链式反应任意翻倍。 DNA 存储存在的问题 第一,成本高 要想将数据存储在DNA中,首先要合成DNA;要想读取DNA中的数据,要进行测序,两个过程的成本都非常高。欧洲生物信息学研究所的Nick Goldman和Ewan Birney在2012年发表他们的研究时,编码一兆字节的数据花费了12,400美金。而现在,只需要3,500美元。但即使这些成本进一步下降,合成DNA仍然是一个利基活动。目前世界上还没有哪种储存媒介的容量能够编码拍字节(petabyte)的数据。 第二,写入和读取耗时长 DNA 合成和测序两个过程都耗费很长的时间,使用不够便捷。 第三、读取难 假如你将5个文件存储在1个DNA中,但你想指定读取其中一个文件时是不行的,必须将整个DNA测序后,再拼装成5个文件,然后找到你想要的某个文件。 看来这一研究虽然十分具有创新性,但DNA要作为储存媒介广泛应用还有很长的路要走。DNA硬盘要想发挥实用价值还需依赖于DNA合成技术和测序技术的发展与革新。 DNA 存储研究历程 2011 年,哈佛大学的George Church就进行过DNA存储,他利用由4个字母A、G、T和C组成的DNA链编码0和1的数字化文件,从而将一本具有52000个单词的书籍编码到数千个DNA片段中。2012年,相关研究成果发表在Science期刊上。然而,他们的编码方案相对低效,每克DNA仅能存储1.28PB。 2013 年,欧洲生物信息学研究所的NickGoldman和Ewan Birney在Nature发表了他么的研究成果——他们在一颗DNA微粒中编码了莎士比亚所有的(154首)十四行诗,马丁•路德•“我有一个梦想”演讲的剪辑以及一份来自James Watson和Francis Crick的PDF格式论文。这颗DNA“硬盘”极小,当以至于当它被送到实验室时,Goldman看到的只是一个空管。 管底粉红色物质即DNA,少量DNA即可存储大量数据 不过,前面的这些研究都有丢失数据位的风险,因为我们只能合成或测序只有几百个字母的一小段DNA片段。如果我们想编码一大块数据,必须将其分解开来,然后拼装成杂乱的DNA,容易造成数据位丢失。虽然Goldman和Birney通过创建重叠代码来应对这一点,但不怎么高效。 工作中的Yaniv Erlich和Zielinski 2017 年,来自纽约基因组中心和哥伦比亚大学的YanivErlich和Dina Zielinski在Science期刊上发表文章,他们采用DNA喷泉码的方法解决了数据位丢失的问题。 DNA 喷泉码——一种将数据分割成小数据包(或“水滴”)的编码方式,通过这种方式你可以恢复整个数据,即使你只能捕获一个随机子集。无需担心错过了哪些信息,只要能捕获足够的“水滴”,你就可以重建整个数据流。 Erlich将这种方式比喻成做一个巨大的数独谜题:如果一些方块被填充进去,那么你可以推断出其他方块。Erlich表示这种方法比以前的研究高效了60%。 Erlich 和他的同事将六份文件:计算机操作系统、电影、照片、科学论文、计算机病毒和亚马逊礼物卡编码进DNA分子中,这些文件总共2.14×106字节,共72,000个DNA片段文库,然后对它们进行测序,解码和重新装配。在这个过程中,他们丢失了2000多个碎片,但他们最后仍然完美地重建文件。 随着DNA合成和测序技术的发展与革新,DNA存储能广泛地应用于人们的生活、工作中,到时候再也不用担心内存不够的问题了。 喀斯玛商城微信公众号
408 次阅读|0 个评论
“DNA喷泉算法”诞生:1克DNA将能存储2.2亿部高清电影
热度 2 SciLondon 2017-3-6 10:49
又一项革命性突破诞生!《科学》杂志于2017年3月3日刊登了来自纽约基因组中心(New York Genome Center,NYGC)和哥伦比亚大学(Columbia University)的 最新研究成果,一项即可靠又高效的DNA存储策略- 被称作“DNA喷泉(DNA Fountain)”算法。利用这种的新编码技术,研究人员可以最大化 DNA 分子的数据存储能力,使其接近核酸的理论信息存储量。该研究推动了DNA数据存储的极限,令人兴奋。研究论文标题为“DNA Fountain enables a robust and efficient storage architecture”,链接如下:DOI: 10.1126/science.aaj2038 。 图1 研究人员(论文作者)Yaniv Erlich(论文通讯作者、哥伦比亚大学计算机科学家、哥伦比亚数据科学研究所成员、NYGC核心成员)和Dina Zielinski(NYGC副研究员)展示了一种新颖的编码技术,能够最大化DNA分子的数据存储能力。 1. “黑科技”的背后是什么? 脱氧核糖核酸分子,即DNA分子,高度紧凑,具有提供大容量信息存储的能力,是一种具有巨大潜力的数字信息存储介质。然而,当前的技术只能利用其理论最大存储能力的一小部分。 图2 DNA双链分子的形象说明。来自《大英百科全书》。 研究人员Erlich和Zielinshi则开发了一项新的存储策略/算法(“DNA喷泉”技术,如图3所示),用于编码和解码数据,将存储在单个核酸分子的信息接近理论最大值。 他们选择6份文件,其中包括一个大小为1.4MB的完整计算机操作系统,一部1895年的法国电影《Arrival of a train at La Ciotat》,一份价值50美元的亚马逊礼品卡,一个计算机病毒,一份先驱者徽章(Pioneer plaque)图片文件和1948年信息学家Claude Shannon的一项研究文件。 图3 “DNA喷泉“编码技术。左图:3个主要的算法步骤。右图:32位的一个小文件实例。简单起见,这个文件被分成8个区,每个区占4个位。图中这些“种子”以2-比特的数字呈现,仅作示范。 他们首先将文件压缩成一个主文件,然后将数据拆分为由1和0组成的二进制双编码的短字符串。 他们设计了一种容错算法-- DNA喷泉码 ,将这些字符串随机地封装成所谓的“液滴”,并将每个小滴中的1和0映射到DNA中的 四个核苷酸碱基(A,G,C和T) 中。该算法会自行删除易产生错误的字母组合,同时后每个液滴添加了额外的标签,以便于以后(指解码时)以正确的顺序重组这些文件。 最终,研究人员创建了含72000个DNA链的数字列表,每个DNA长度为200个碱基。 他们以 文本文件 的形式把这些信息发送给了一家位于旧金山的擅长将数字信号转换成生物信号的 D NA合成初创公司(Twist Bioscience) , 在那里这些文本被合成了DNA链。 两周后,Erlich和 Zielinski 收到一个小玻璃瓶,里面装着编码了他们文件的DNA 产品。 为了解码/读取这些文件,他们首先使用二代DNA测序技术检测DNA链,然后运用特殊软件将这些遗传密码翻译回二进制码,并使用标签重组了六个原始文件。 根据《科学》上发表的文章,这种方法效果很好,新的文件全部被零差错地恢复。 他们还能够通过 聚合酶链式反应技术(PCR,一种标准的DNA复制技术) 复制几乎无限数量的无错误文件,甚至这些复制品的复制品也可以做到零差错。可见,这项技术也极为可靠。 这项编码技术可以将215PB(petabytes)的数据打包进仅一克的DNA分子中,也即能够为每个核苷酸编码1.6比特(bits)的数据,比之前存储了至少60%多的信息,逼近理论极限(1.8比特)。 这个存储容量比以前由哈佛大学George Church和欧洲生物信息研究所的Nick Goldman和Ewan Birney的方法高出100倍。Erlich说,他们认为, 这可以算是史上密度最高的数据存储设备了。 215PB到底有多大?简单来说,1PB=1024TB, 而1TB=1024GB。目前,市面上常规的电脑硬盘不过2TB的容量 - 按照高清电影每部10GB的大小,215PB能够存储2.2亿部电影! 《科学》杂志的编辑称赞道:“这项技术不但能将包括完整电脑操作系统在内的数字信息有效编码进DNA,又能将存储于DNA中的信息经过多轮PCR(聚合酶链式反应)后批量提取出来,他们实现了有效的、强大的信息编译”。 2. DNA存储技术经历过哪些发展? 科学家开始使用DNA存储数字数据,要追溯到2012年。 当时哈佛大学的遗传学家George Church,Sri Kosuri和其他同事使用 DNA 的四种碱基 A、G、T和C来编码数字化文件的0和1,把一本52000字的书编码到数千个DNA片段中。然而,他们的编码方案相对低效,每克DNA仅能存储1.28PB。后来也有一些方法做得更好, 但没有一个能够存储超过研究人员对DNA存储能力的预测值(每个DNA 核苷酸约1.8比特)一半的存储量。 (研究人员认为每个DNA 核苷酸可以存储约1.8比特,而不是2比特,是考虑到DNA写入和读取中罕见但不可避免的错误)。 由于多年来,科学家已经推理并且证明DNA可以用作数据存储介质,并且它具有理想存储介质的显著特征。 因而,本研究的价值更多地体现在,设法在DNA当中存储比以往任何时候更多的数据 - 并且证明它可以被复制和检索几乎无限多次,具有零错误。 3. DNA存储技术有什么优点? 采用DNA存储数字信息具有许多优势,主要体现在两个方面: 1. 存储能力强,容量大。 通过使用流式传输和在线压缩视频的数据技术,研究人员能够将1.6位数据包装到每个核苷酸中,接近理论极限的1.8。这听起来不是很多,但科学家证明他们可以有效地在一克DNA当中存储215PB数据。 2. 存储时间久,可靠性高。 DNA是超小型且高度紧凑,如果保存在阴凉、干燥的地方,它可以保存几十万年不损坏。 最近,这已经被西班牙一项关于43万年前人类祖先的骨骼DNA的研究所证明。只要人类文明的技术确保我们还可以阅读和编写DNA,就能够对其进行读取和解码。也就是说,几乎可以实现永久保存。“DNA不会像盒式磁带和CD光盘那样随着时间的推移而衰减,它也不会过期。” Yaniv Erlich教授说。也不像其他高密度的存储方式,比如操纵表面上的个别原子,这项新技术可以一次写入和读取大量的DNA,且可以放大。 4. 走向大众?还没有那么快 除了技术本身发展外,限制其存储的最主要几个因素如下: 1. 首先是成本太高。 研究人员将2兆字节(MB)的数据写入到DNA中花费了 7000美元 ,然后读取这些数据又花了 2000美元 。Erlich也表示,新的方法现在还不具备大规模使用的条件。 2. 其次,存储与读取的速度太慢 。 与其他形式的数据存储相比,将数据写入DNA 以及读取其中的数据都相对较慢。因此,这种方法就不适合即时处理数据,而更适合应用于档案管理。 5. 互联网时代的刚需 人类在过去2年中产生的数据比之前人类历史产生的全部数据还要多。 信息时代下,爆炸的信息和数据如洪流般袭来,这可能很快就会超过硬盘和磁盘为主的存储设备的承受力。 而如何找到既能存储大量数据,又可靠且不会占据大量的资源,仍然是计算机工程师的一个难题。然而,答案可能来自自然界----即生物DNA存储。 就像本研究能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的每一点数据存储在几个卡车大小和重量的容器中。 从长远的角度,DNA存储技术必然有着广阔的应用前景。 尽管DNA存储很可靠,且效率高,存储能力强,但目前仍面临着成本问题。使用这种技术存储和检索仅仅几兆字节的数据仍需要数千美元,因此我们不太可能在任何设备上看到DNA存储。 如今的产业需求和技术发展,已经使得DNA测序的成本呈指数下降。然而对于DNA合成,目前未必有这么大的需求,导致产业成本仍然巨大。比如,加州大学洛杉矶分校(UCLA)的生物化学家Sri Kosuri就认为,投资者不会花费巨资来降低成本。 然而,像谷歌和微软那样必须处理不可想象的数据量的公司来说,DNA存储在经济上其实是可行的。这些互联网巨头们每一秒种都在运行着巨量的云计算- 举例来说,Google搜索引擎天要运行30亿次搜索查询!这对于现有的服务器系统无疑是一个挑战。随着电商平台,直播平台,大数据处理等互联网商业的发展,对高效存储设备的需求将会越来越大- 而DNA存储技术将极大地激发未来互联网时代的潜能! 随着时间推移,更多研究工作取得突破,成本可能会下降 - 但这样的研究仍有很长的路要走, 我们期待这一天早日到来! 参考资料 https://www.sciencedaily.com/releases/2017/03/170302143947.htm Yaniv Erlich, Dina Zielinski. DNA Fountain enables a robust and efficient storage architecture. Science , 2017; 355 (6328): 950 DOI: 10.1126/science.aaj2038 ( 未止科技 原创。转载请联系我们,原文: DNA存储技术革命 )
7525 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 04:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部