生命技术公司承诺个人基因组测序成本降到 1000 美元 2012 年 1 月 10 日,生命技术公司( Life Technologies ) CEO Gregory Lucier 宣布了一项随离子质子测序仪( Ion Proton Sequencer )的推出而实现的测序技术最新突破。离子质子测序仪是离子个人基因组仪器( Ion Personal Genome Machine, PGM )的更快速版本。这款最新的仪器是 Ion Torrent 公司前 CEO Jonathan Rothberg 的心血之作, Ion Torrent 公司在 2010 年被位于加州卡尔斯巴德的生命技术公司收购。新的测序仪采用半导体技术进行 DNA 序列阅读,同时极大提高了芯片的孔网密度 (well density) 。 Rothberg 介绍说“采用旧的芯片,人类的一根头发丝可能覆盖 400 个孔 (well) ,但是使用新的芯片,却可能覆盖 10000 个孔。而且,新的芯片上集成了氢气传感器(当一个核苷酸整合到 DNA 中时,会释放出氢气)。光检技术会因为孔网密度的增加而降低速度,而新的半导体技术则相对运行更快。 Rothberg 说第一张芯片在两个小时内可读完 100 万个孔,更新的芯片将会读到 1 亿个孔。尽管通过这张芯片获得的数据到 2 月中旬才会公布,但是该公司宣称一个人类基因组的测序将会在两个小时内完成,而且材料成本将仅有 $1000 。新的仪器成本为 $149,000 。在 Lucier 宣布数小时后,位于 San Diego 的 Illumina 公司宣布将升级他们的 HiSeq 2000 ,这将会在 1 天内完成一个人类基因组的测序。 消息来自 Nature Biotechnology, 2012(February), 30:126. 英文原文: On January 10, Life Technologies' CEO Gregory Lucier announced the latest breakthrough in sequencing technology with the launch of the Ion Proton Sequencer, a faster version of its Ion Personal Genome Machine (PGM). The machine is the brainchild of Jonathan Rothberg, former CEO of Ion Torrent, which was bought by Life Technologies of Carlsbad, California, in 2010. The new sequencer uses semi-conductor technology to read DNA sequences, coupled with a dramatic ramp-up in the chip's well density. “ if you took out a human hair and put it over a well, you would cover 400 wells. our new chip, you'll cover 10,000 wells,” says Rothberg. In addition, the new chip moves the hydrogen ion sensor (hydrogen is released when a nucleotide is incorporated into DNA) onto the chip. Unlike light detection technologies that slow down as density increases, with semi-conductors, the rate is faster. “The first chip did a million wells in two hours, the new one will do a billion,” says Rothberg. Although data obtained from the chip won't be released until mid-February, the company reports that a human-sized genome can be sequenced in two hours, at a cost of $ 1,000 in materials. The new machine will cost $ 149,000. Within hours of Lucier's announcement, Life Technology's main competitor, Illumina of San Diego, announced an upgrade to their HiSeq 2000 that will sequence a human genome in a day.
破除法老 DNA 的咒语 古埃及法老(国王)的尸体都被做成木乃伊,保存在金字塔里,据传说,冒犯了法老王的干尸,就会中法老的咒语。在美国电影的渲染下,这个咒语被传得充满玄机,神秘莫测。似乎在埃及北部第六代塞加拉王朝的法老墓外,或内侧出现类似“咒语”的文字,据说也只是针对祭司的,好让其尽职保护墓地,而非防盗墓贼设定的神秘“咒语”或机关。考古学家其实并未在法老墓内发现任何咒语。 既然法老的咒语不一定有,那也就不存在打破一说。不过,法老的 DNA却 是一个实实在在的技术上的“咒语”,它让国际考古学界分成两派,闹得剑拔弩张,快要老死不相往来了。大家的分歧主要在于古生物化石或遗体中的 DNA 能不能用来做考古鉴定,最终呢,还是技术的进步打破了了这个咒语,如今两派也该抛弃成见握手言欢了吧。 故事要从上个世纪 80 年代说起。 1983 年, Kary Mullis 发明了聚合酶链式反应( polymeras chain reaction, PCR ) , 简称 PCR ,用来扩增 DNA ,该技术突破了分子克隆的技术瓶颈,让分子生物学的研究与应用都进入快车道。 PCR 技术刚一出现,一些考古研究人员就敏感地意识到,他们可以用这项技术从极少的古遗骸样品中扩增 DNA ,用于考古鉴定。瑞典 Uppsala 大学(德语的意思是“水果沙拉” )一个年轻的博士生, Svante Pbo ,在导师的支持下,成了第一个吃螃蟹的人,他声称从 2400 年前的木乃伊中克隆出了 DNA 。于是乎,这项技术迅速被传开,一时发现各种古生物遗骸或化石 DNA 的报道蜂拥而至,令大家亢奋不已,其中也有我们北大陈章良先生的杰作,声称从恐龙蛋中克隆出了恐龙基因片段。 稍微有些年龄的朋友可能还记得上个世纪 90 年代初陈章良搞的那个从恐龙蛋化石中克隆恐龙基因的项目,据说是时任科技部长宋健亲自批示,由基金委拨款 50 万。我们首先还是得佩服陈先生的敏锐,但是,他太急功近利了点,打着为国争光的旗号,却碰了一鼻子灰。 那场古生物 DNA 克隆热很快降温,成为一场笑话。不信,你试试和陈先生聊聊恐龙蛋,估计他得跟你急。为什么?后来发现,那些所谓克隆出来的片段,有些是环境微生物的基因片段,有些是说不清来源的基因,也就是说,可能都是污染信号。 有点分子生物学经验的人可能都明白, PCR 反应对原始信号是个指数扩增放大反应,极其敏感,理论上可以检测到一个 DNA 分子片段!但是这里有一个信噪比的问题。古老 DNA (如果还残存)和周围空气、尘埃中,甚至样品附着的尘土、微生物等来源的现存的新鲜 DNA 相比,无论数量上还是质量上都已无法比拟。信号完全淹没在噪音的海洋里,你看到的究竟是信号还是噪音?这也是出现一些荒唐结论的原因,比如“恐龙属于现代人,因为基因序列一样”。 这场失利对DNA测序用于考古鉴定可是一个沉重的打击。大家总是以异常挑剔的眼光去评判,即使在领域内,就古生物遗骸能否进行 DNA 鉴定问题,很快就分成了水火不相容的两派。挺 DNA 派认为没问题,甚至可以作为常规;而反对一派则认为完全不可能,对待涉及 DNA 分析的论文,他们也百般挑剔,批评严厉,使其根本无法发表。认识上的对立不知不觉地演变成派别斗争,两排干脆连发表论文的杂志都分开了。 古生物遗骸中的 DNA 究竟能不能克隆和进行测定? 这确实是个难题。生物学界的冷眼旁观,似乎普遍不看好。 DNA 就像两股绳子,主体骨架是由一个个 5- 碳糖通过磷酸二酯键连起来,每一个糖上带着个小挂件 - 碱基,两条链间的碱基一一对应互补,靠氢键维持配对关系。有分子生物学实验经验的人一般会感到, DNA 相对还是比较稳定,我们提取的 DNA 可以溶液中放置数周,如果零下 20 ℃ 可以保存数月到 1 年,如果出去水分,晾干保存,可以放置数年或更长(没有试过更长时间)。但是,实验室提取的 DNA 一般都经历一步酚 : 氯仿抽提(或萃取)过程,这两个有机溶剂都是强烈的蛋白变性溶剂,目的是将所有酶类灭活。这就容易理解为什么实验室提取的 DNA 那么稳定了,一是除掉了攻击它的的酶,二是除去水分。但即使是就这样,能放置几千年吗?没人知道。 在自然条件下, DNA 可不是那么安全的。DNA储存在细胞核内,生物体在死亡过程中,细胞会逐渐发生自溶,大量酶类如蛋白酶、 DNA 酶等释放,细胞的DNA很快会被降解,即便是细胞没来得及自溶,但是天长日久,微生物进驻组织或细胞,就像寄居蟹一样,在哪里吃喝拉撒,生老病死,他们产生的蛋白酶也会把原细胞内的 DNA 破坏掉;另外,在高温和潮湿的条件下自身容易发生水解、断裂,因此,一般死亡的动物和人的遗体, DNA 很难完整保存下来。当然,酶对 DNA 的破坏作用是需要水分,而且跟温度成正相关,如果能保证绝对干燥,或许能保存得相对时间长些。另外,在个别特殊情况,如在极端寒冷的情况下被冻死的人活动物,这些组织来源的 DNA 或许能避免降解,或发生的极其慢,或许还有机会测得其 DNA 序列。 但是,对于古埃及的木乃伊,似乎有些特殊。木乃伊的制作过程显然对 DNA 的保存十分有利。首先,在人死亡之后尸体周围加大量的天然的盐类,包括碳酸钠盐类,使尸体快速脱水、变干,减少 DNA 的降解,避免自发水解;然后干尸上覆盖一层防腐剂,外层再涂上厚厚的隔离才材料,主要由沥青、植物油和蜂蜡等,主要作用是防潮和防止空气氧化。上述涂抹材料都深深地渗入身体内部,组织都没染成了黑色,这些材料其实对尸体的 DNA 形成特殊的保护。当然,这还只是理论推测,究竟如何,要看实际结果。 挺 DNA 派的一些考古学家有股“咬定青山不放松”的劲,坚持不懈,想方设法寻找解决问题的办法,其中就包括那个第一个吃螃蟹的人: Svante Pbo 。当然,也有些彻底放弃了,如我们原北大的陈章良先生,在一片批评声中草草收场,回去做植物发育。此后,考古 DNA 测序也经历了沉沉浮浮、起起落落,此处不做细表。 经过了多方尝试,条件优化、方法改进,其实始终难以获得理想的结果,难逃对手激烈的批评。 事情的转机开始出现,这要归功与埃及官方批准的一项“图坦卡蒙(古埃及法老)研究项目”。在埃及大概到处都是木乃伊,质量不一,而这次供研究用的可是王家木乃伊,制作技术水平应该是最高的,保存也应该是更完好的。在于国际同行的合作参与下,对对公元前 1400 年左右古埃及法老图坦卡蒙和周边几个金字塔内其它的 10 名王室成员进行分析 DNA 指纹分析,当然也结合了其它常规的考古分析方法,推测出他们的亲属关系和可能的死因,论文发表在 2010 年《美国医学协会杂志》的发现专栏上。尽管做了严格的对照,甚至多方独立重复,但是,仍然难逃批评和质疑。批评的问题主要集中两点: 1 )不能排除是污染了现代人的 DNA; 因为古埃及人的 DNA 和现代人没有多大区别。 2 )用的只是 DNA 指纹分析,给的信息太粗糙,不能说明问题。 事情出现真正的转机还是有赖于第二代测序技术的出现和及时应用。木乃伊保存得再完好,也不可能让 DNA 保存完整无损,就像我们马王堆出土的“帛”,其实已经脆弱不堪,很多已经是碎片了。常规测序需要基因片段达到一定大小,一般最佳的大小为 600-800 个核苷酸这么长,最低也要上百个核苷酸,显然古 DNA 标本满足不了这个要求。新一代测序技术对 DNA 长短要求减低了很多,只要大于 35 个核苷酸就可以; 另外,对DNA量的要求也比较低,整个基因组测下来,几个微克 DNA 就够了。新技术大大降低了 DNA 材料质量数量要求的门槛, 使得古 DNA 样品测序成为可能。 2010 年,这项新技术终于在古 DNA 分析鉴定领域开花结果,古DNA测序这个“咒语”终于被破除。 4000 年前古爱基斯摩人的全基因组学列得到测定( Rasmussen, M. et al. Nature 463, 757-762 (2010). );当年第一个吃螃蟹的人, Svante Pbo博士, 也率领他在德国马普所的进化考古团队成功测定了 3 万 8 千年前尼按特穴居人 (Green, R. E. et al. Science 328, 710-722 (2010). 和南西伯利亚一个前所未知的新人种的全基因组序列( Reich, D. et al. Nature 468, 1053-1060.), 也终于以清晰和无可争辩的结果令对手无话可说,毕竟科学相信证据,即使有再强的立场,但在solid的科学证据面前还是不堪一击的。学术隔阂就像柏林墙一样顷刻倒塌。 对科学探索既要要求苛刻,也需要些宽容啊。 技术推动科学,技术弥合了分歧。 好奇地问问,陈先生现在在哪里?(不需要回答^^)
种植的苹果基因组被测序,发在最新的一期的Nature genetics。苹果基因组测序对研究果实的发育有着重要的意义,其中参与花与果实发育的mads基因在一些小枝上有着扩张。 有意思的是苹果在发生一次基因组重复后丢掉一对染色体,早期的时候是9对染色体,在后来复制一次应该有18对,但最后只有17对染色体。 苹果基因组也不是很大,大约有742M,比水稻400M与拟南芥125M要大些,但比大豆1G的基因组要小。其总的基因数目倒是现在已经被测序的10几种植物最大的,差不多有60000个。 Reference: 1。 Velasco, R. et al. The genome of the domesticated apple。Nat. Genet. 42, 833839 (2010). 2。James Giovannoni。Harvesting the apple genome 。Nat. Genet. 42, The genome of the domesticated apple
短序列组装几乎是近年来next-generation sequencing最热门的话题。简单来说,就是把基因组长长的序列打断(shotgun sequencing),因为我们不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而我们又无法实现一次把整条长序列完整测序(现在有单子测序可能是一个新的sunlight)。然后,我们通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。 就好比我们有这样一句话: it is just a hypothesis, so don't be seriously! 假设,我们现在不知道这句话到底是什么,就像我们有一个box,我们抽到一张纸,但没打开,我们把这张纸撕成pieces,当然可能还发生了变化,所有的空格和标点都消失了(魔术!)我们得到: itis ypo stah the sodo eriou siss ju ntbes sly 因为我们测了几次,为了增加覆盖度,这样我们能通过高覆盖度而提高置信度: itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju 另外,我们又发明了一种称作为paired-ends的序列测序方法,即两头定长,中间插入片段一定的序列,像这样: iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly 这样我们根据如下图的方法,我们可以把这句话拼回来: itisjustahypothesissodontbeseriously 但它不是最终结果,我们根据我们的现有的语法习惯,我们给它们加上空格(gap)和标点(遗漏的关键东西),我们能够还原原话! 但事实它并不简单,因为基因组中含有大量的重复序列(Repeats),多态性变异(Polymorphism),测序错误(Sequencing error),所以我们可能会把一条序列连成很多路(图论),或者回环等,如velvet: 它们有时不但只是通过简单的统计学算个N50就能得出最佳路线,可能会涉及到复杂的纠错和线性化过程。 现有有两条路子,一参考原有参考基因组,我们用map resequencing的方法,来找出consensus,当然我们可以结合RNA sequencing, ChIP sequencing, SNA detection,methyl-seq,CNV detection(以前我认为这是一个不错的出路,但后来因为工作搁置没进一步研究),我们可参考lh3大哥的Maq策略: 当然,并不是所有的基因组都有参考序列,所以我们还有 图论 的策略,如velvet,当然现有很多算法和程序已经得到比较满意的结果,如: * MIRA2 - MIRA (Mimicking Intelligent Read Assembly) is able to perform true hybrid de-novo assemblies using reads gathered through 454 sequencing technology (GS20 or GS FLX). Compatible with 454, Solexa and Sanger da ta. Linux OS required. * SHARCGS - De novo assembly of short reads. Authors are Dohm JC, Lottaz C, Borodina T and Himmelbauer H. from the Max-Planck-Institute for Molecular Genetics. * SSAKE - Version 2.0 of SSAKE (23 Oct 2007) can now handle error-rich sequences. Authors are Ren Warren, Granger Sutton, Steven Jones and Robert Holt from the Canada's Michael Smith Genome Sciences Centre. Perl/Linux. * VCAKE - De novo assembly of short reads with robust error correction. An improvement on early versions of SSAKE. * Velvet - Velvet is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454. Need about 20-25X coverage and paired reads. Developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI). 但,我们的数学家生物信息学家完全沉溺在算法改进,可改来改过,从未见过一个版本的short reads assembly能站出来说,这个版本是最准确的! 其实,我认为算法不是瓶劲,而是计算资源,计算成本,并行计算的实现!当然人们说,我们有Grid,有super computer,有集群,有cloud,可这些战斗机,并没有而且没必要用在只用跑车就能运行的基因组组装上。 从物理的角度上思考,我们并不需要建立复杂的模型,就比我们去学一门外星语言,of course我们不能与之交流,这就是一个解码过程。我们可以通过统计,了解并发现其中的自然规律(只要是事件都有固有规律,语言更是),我们可以知道其单词(当然可能是声音、光、触觉、肢体语言、脑电波,anyway不管什么表达方式)的出现频率,停顿时间,语调(可能是光强度,色度等),然后,通过外部事物的接触,我们就能知道其语意,并创造我们的单词、句子,好比婴儿学语(人工智能范畴)。它们其实就是个熵、焓计算,因为自然本身是有规律的,只期待着我们去发现!那么,我们可以把这样的统计模型放在assembly上,应该是通用的,我们可以建立一个并行计算中心,我们不用什么for(){}语句,就一个计算交由一个CPU(GPU)让它去运行,算出我们的最大似然值,熵极值,那就是答案!