短序列组装几乎是近年来next-generation sequencing最热门的话题。简单来说,就是把基因组长长的序列打断(shotgun sequencing),因为我们不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而我们又无法实现一次把整条长序列完整测序(现在有单子测序可能是一个新的sunlight)。然后,我们通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。 就好比我们有这样一句话: it is just a hypothesis, so don't be seriously! 假设,我们现在不知道这句话到底是什么,就像我们有一个box,我们抽到一张纸,但没打开,我们把这张纸撕成pieces,当然可能还发生了变化,所有的空格和标点都消失了(魔术!)我们得到: itis ypo stah the sodo eriou siss ju ntbes sly 因为我们测了几次,为了增加覆盖度,这样我们能通过高覆盖度而提高置信度: itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju 另外,我们又发明了一种称作为paired-ends的序列测序方法,即两头定长,中间插入片段一定的序列,像这样: iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly 这样我们根据如下图的方法,我们可以把这句话拼回来: itisjustahypothesissodontbeseriously 但它不是最终结果,我们根据我们的现有的语法习惯,我们给它们加上空格(gap)和标点(遗漏的关键东西),我们能够还原原话! 但事实它并不简单,因为基因组中含有大量的重复序列(Repeats),多态性变异(Polymorphism),测序错误(Sequencing error),所以我们可能会把一条序列连成很多路(图论),或者回环等,如velvet: 它们有时不但只是通过简单的统计学算个N50就能得出最佳路线,可能会涉及到复杂的纠错和线性化过程。 现有有两条路子,一参考原有参考基因组,我们用map resequencing的方法,来找出consensus,当然我们可以结合RNA sequencing, ChIP sequencing, SNA detection,methyl-seq,CNV detection(以前我认为这是一个不错的出路,但后来因为工作搁置没进一步研究),我们可参考lh3大哥的Maq策略: 当然,并不是所有的基因组都有参考序列,所以我们还有 图论 的策略,如velvet,当然现有很多算法和程序已经得到比较满意的结果,如: * MIRA2 - MIRA (Mimicking Intelligent Read Assembly) is able to perform true hybrid de-novo assemblies using reads gathered through 454 sequencing technology (GS20 or GS FLX). Compatible with 454, Solexa and Sanger da ta. Linux OS required. * SHARCGS - De novo assembly of short reads. Authors are Dohm JC, Lottaz C, Borodina T and Himmelbauer H. from the Max-Planck-Institute for Molecular Genetics. * SSAKE - Version 2.0 of SSAKE (23 Oct 2007) can now handle error-rich sequences. Authors are Ren Warren, Granger Sutton, Steven Jones and Robert Holt from the Canada's Michael Smith Genome Sciences Centre. Perl/Linux. * VCAKE - De novo assembly of short reads with robust error correction. An improvement on early versions of SSAKE. * Velvet - Velvet is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454. Need about 20-25X coverage and paired reads. Developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI). 但,我们的数学家生物信息学家完全沉溺在算法改进,可改来改过,从未见过一个版本的short reads assembly能站出来说,这个版本是最准确的! 其实,我认为算法不是瓶劲,而是计算资源,计算成本,并行计算的实现!当然人们说,我们有Grid,有super computer,有集群,有cloud,可这些战斗机,并没有而且没必要用在只用跑车就能运行的基因组组装上。 从物理的角度上思考,我们并不需要建立复杂的模型,就比我们去学一门外星语言,of course我们不能与之交流,这就是一个解码过程。我们可以通过统计,了解并发现其中的自然规律(只要是事件都有固有规律,语言更是),我们可以知道其单词(当然可能是声音、光、触觉、肢体语言、脑电波,anyway不管什么表达方式)的出现频率,停顿时间,语调(可能是光强度,色度等),然后,通过外部事物的接触,我们就能知道其语意,并创造我们的单词、句子,好比婴儿学语(人工智能范畴)。它们其实就是个熵、焓计算,因为自然本身是有规律的,只期待着我们去发现!那么,我们可以把这样的统计模型放在assembly上,应该是通用的,我们可以建立一个并行计算中心,我们不用什么for(){}语句,就一个计算交由一个CPU(GPU)让它去运行,算出我们的最大似然值,熵极值,那就是答案!
JGI-联合基因组研究中心,美国能源部的一个基因组研究中心,也许是世界上最大的非动物基因组测序研究中心了,预计今年其基因组数据量将到达4-5Tb,这样庞大的数据,他们感到已经难以承受数据的存储、分析所需计算设备的压力了,这促使JGI寻求更专业的计算设备维护和管理中心。 从这点来看,以后,测序中心将不会关注数据存储、分析所需要的计算能力,这样的计算能力可以使用别家的计算中心,比如云计算中心。那么测序中心很重要的一点就是如何快速的把测序获得的数据传输到云计算中心上以进行处理。可以预计,随着测序费用的下降,和基因组测序的广泛应用,测序服务中心和云计算中心的合作将会成为一种趋势! JGI Consolidates High-Performance Computing Operations into NERCS April 20, 2010 By Alex Philippidis NEW YORK (GenomeWeb News) – The Joint Genome Institute says the torrent of sequencing data it has generated, and plans to generate this year, explains its decision to consolidate its high-performance scientific computing operations into the US Department of Energy's National Energy Research Scientific Computer Center (NERSC). JGI has agreed to transfer to NERSC six Lawrence Berkeley National Laboratory employees specializing in scientific computing, including computer and network security and instrumentation computer systems. JGI's desktop support services will remain under the control of the institute, which is located in Walnut Creek, Calif. The consolidation, announced April 12, follows JGI's expectation this year that it will multiply the quantity of data it expects to generate through its sequencing of plant, microbe, fungal, and metagenomes. That quantity surpassed 1 terabase, or 1 trillion bases, in 2009, an eight-fold increase over 2008 — with "maybe 4 to 5 trillion this year" expected to be sequenced, JGI spokesman David Gilbert told GenomeWeb Daily News. "In that alone, you can tell why we need that computational horsepower that we could handle on our own, but now it's getting to the point where it's just crazy. Why build something in house when we've got a partnership where all the folks who are, in effect, being transferred over to NERSC? They've been Lawrence Berkeley people anyhow, so it's not a major change from their perspective," Gilbert said. The institute's current data center lacks the capacity to store the exponentially higher amount of data projected, and JGI staff did not have the same breadth of experience with running very large-scale systems that staffers at the computer center have, Jeff Broughton, systems department head at NERSC, told GWDN. Under the consolidation, NERSC will be responsible for existing JGI scientific computing equipment and new equipment to be procured, which will be housed about 16 miles southwest of Walnut Creek, at the computer center's Oakland facility. Broughton said the new equipment will include 500 dual-socket, quad-core Nehalem processor nodes from SGI — of which 160 nodes are in place, with the remaining 340 nodes "expected to arrive within the next six weeks, by the end of May" — as well as a 120 nodes from the IBM iDataPlex system already in use at NERSC's "Magellan" cloud computing cluster, part of a joint research effort between NERSC and the Argonne Leadership Computing Facility, funded with $32 million from the $862 billion American Recovery and Reinvestment Act. "In general, genomics is a pretty good fit for cloud computing, and they were able to take advantage of that," Broughton said. "The new sequencers are producing ever-increasing flows of data, and it's important to make sure that the computational infrastructure scales appropriately to match it," he added. He said NERSC runs "in excess of" 50,000 cores for high-performance computing now, a figure expected to quadruple by the end of the year. JGI would account for about 10 percent of NERSC's total computing power, based on core count. By teaming with NERSC, JGI can enjoy access to a dedicated 10 Gbps-per-second link between both institutions on the Science Data Network of the Energy Sciences Network, as well as other benefits, such as redundant cooling systems, an uninterruptible source of power, environmental and energy-use monitoring, and a central help desk.
摘要 人类基因组计划的启动与实施,大规模研究技术的发明与应用和生物信息学的发展深刻影响了当代生物学的研究模式。系统生物学已逐渐受到关注,它在肿瘤学领域的应用所形成的肿瘤系统生物学将对进一步理解肿瘤的发生、发展机制和对肿瘤的诊断、治疗产生深远的影响。 关键词 肿瘤;系统分析;生物信息学 当代生物学的发展,使人们有能力重新考虑用控制论、一般系统论、信息论等方法去理解生命现象,使系统生物学的研究成为可能。它在肿瘤学领域的应用所产生的肿瘤系统生物学使人们对于解决目前临床上面临的种种问题充满信心。 1 人类基因组计划完成的历史意义 自从人类基因组计划启动到2001年2月草图完成 ,2004年10月人类基因组完成图公布以来 ,对当代的生物医学产生了巨大的影响 , 直接导致了系统生物学和预测、预防及个体化医学的产生与发展。同时也改变了生物学家的思维与实践,首先使人们认识到生物学也是一门信息学,如DNA序列、蛋白质序列、蛋白质的三维结构等。其次高通量的定量技术得到了发展,如DNA测序、基因芯片、蛋白质组学技术等。再次,计算机技术、数学、统计等在生物信息领域中的应用得到了迅速的发展。还有对模式生物研究的深入使人类对于理解像人这样复杂的生物系统有了很大的帮助。总之,人类基因组计划的启动和实施使过去几十年来,主宰了生物学发展的,以克隆或发现生物反应中单个分子(如某一基因或蛋白质)为主导的分子生物学研究,将逐渐让位于以研究生物反应过程本身及揭示生物现象赖以存在和发展的基本原理的理论与实验相结合的系统生物学 。 2 系统生物学 2.1 系统生物学的概念和意义 系统生物学是研究一个生物系统中所有组成成分(基因、mRNA、蛋白质等)的构成,以及在特定条件下,这些组分间相互关系的学科。由生物体内各种分子的鉴别及其相互作用的研究到途径、网络、模块、最终完成整个生命活动的路线图。这需要一个世纪或更长时间,因而常把系统生物学称为21世纪的生物学。 整合效应是系统生物学的灵魂,它包括对系统各种构成要素,如基因、mRNA、蛋白质、生物小分子等和研究思路及方法的整合。作为系统生物学的创始人之一,Hood 曾指出系统生物学将是21世纪医学和生物学的核心驱动力。Kitano 等人也提倡系统生物学的发展,认为可以从系统水平的四个方面来理解生物系统,如系统结构,系统动态变化,控制方法和设计方法。2002年3月,美国《科学》刊登了系统生物学专集,该专集导论中的一句话写道:如果对当前流行的,时髦的关键词进行一番分析,那么人们会发现系统高居在排行榜上。美国、日本等国都很重视这一领域的发展,都认为系统生物学的发展将在理论生物学、医学、药物开发等方面产生深刻影响 。国内也引起了对系统生物学的关注,如2003年12月在中科院成立了第一个系统生物学研究所。 2.2 系统生物学的研究内容、技术平台和应用 系统生物学主要研究如何使现有的数据一体化,如何获得准确定量、动态的数据,及对数据的管理、分析与模型构建,模型的验证与应用等, 需要实验技术的创新和实验方法的改进。获取定量、动态的数据尤其重要 。如系统生物学杂志声称将刊登那些应用计算机和数学模型去分析、模拟细胞内的网络、相互作用和途径的优秀文章。Hood于2000年1月创建了世界上第一所系统生物学研究所,其目标有两个:用系统的方法研究生物和预测、预防及个体化的医学。它的主要技术平台为基因组学、转录组学、蛋白质组学、代谢组学、相互作用组学和表型组学等,其中生物信息学将起着重要作用。目前系统生物学已成功的应用于几种生物系统如细菌 ,酵母 等研究。 3 肿瘤系统生物学 3.1 肿瘤的危害和当前面临的问题 肿瘤已成为当代人类最主要的杀手。除身体病痛外,肿瘤对患者造成的巨大心里和精神创伤是其它慢性疾病所不能比拟的。肿瘤的医疗费用和资源消耗亦已成为社会沉重的负担。因此,攻克肿瘤不仅是医学界的重大课题,而且也被各国政府所关注,为此投入了大量人财物力。随着细胞分子生物学等理论技术在肿瘤生物学领域的应用,对肿瘤的认识和研究及肿瘤的诊断和治疗产生了巨大的影响。但是还有很多问题需要解决,如肿瘤的形成与发展机制尚不明确,肿瘤的早期诊断困难重重,还有耐药性、副作用等问题。 3.2 肿瘤系统生物学的概念、意义及应用 随着人类基因组计划的启动与进展,基因芯片、蛋白质组学等技术的兴起与应用及生物信息学的发展,重新燃起了人们整体理解生命的希望,把我们带入了系统生物学时代。肿瘤系统生物学就是应用系统生物学的研究方法和手段将肿瘤研究与临床实际密切结合。目前肿瘤系统生物学还处于起步阶段,它将是人们今后普遍关注的焦点,这一领域的深入研究将对进一步理解肿瘤的发生、发展机制及对肿瘤的早期诊断、预防和个体化治疗等方面产生积极的影响。所以人们对肿瘤系统生物学寄予很大希望,想在今后几十年里通过各国科学家在这一领域的共同努力使我们不至于谈癌色变。在美国系统生物学研究所,其中重要的研究内容之一就是肿瘤系统生物学,他们希望通过研究能准确的确定肿瘤类别和发展阶段,不同肿瘤的遗传和环境相互作用关系,以达到早期诊断和个体化治疗的目标, 已经在前列腺癌等方面作了研究 ,为了构建系统生物学网络模型,他们首先用并联平行的标记测序技术(multiple parallel signature sequencing)建立了mRNA表达差异数据库,通过与正常组织比较找到了300个前列腺癌特异基因,其中60%带有信号肽,从中选出一些候选蛋白成功的用于区别早期和晚期的前列腺癌 。为了达到对乳腺癌的早期诊断和有效治疗,丹麦启动了一项长期的计划,希望整合来自基因组、蛋白质组和功能基因组等方面的知识并通过系统生物学的方法来完成使命 。在过去的几年里,蛋白相互作用和蛋白质表达定量等研究促进了机器动态模拟和数据挖掘的研究,如机器模拟表皮生长因子受体(EGFR)途径使人们对表达EGFR的癌认识又进了一步 。Oh 等人用亚蛋白质组学和生物信息学等方法发现了与癌组织内皮细胞特异性的蛋白,如氨基肽酶(aminopeptidase-P)和膜联蛋白(annexin A1)可以分别作为肺癌和实体肿瘤的特异抗体并有望用于治疗。 3.3 对我国肿瘤系统生物学研究的建议 我国在肿瘤研究领域有较好的基础,关于今后肿瘤系统生物学的研究策略,愿在此抛砖引玉,提出我们初浅的建议,以便于相关的科学家加强合作,共同努力,使我国肿瘤系统生物学研究能够走在世界前列: 3.3 .1. 建立肿瘤系统生物学数据库:随着基因组学的发展及后基因组时代的到来,各种生物数据爆炸式增长,这需要我们创造性的发展生物信息学建立一体化数据库 。并努力应用于临床,使这个数据库真正成为临床医生的得力助手,成为研究人员的交流平台。 3.3 .2. 建立相关实验技术平台:肿瘤系统生物学是一个新的领域,研究方法需要创新,新的技术急需开发。另外,现代生物学对仪器有很大的依赖性,肿瘤系统生物学需要立体了解相关情况,更需要实验技术平台的建立与创新,如遗传背景的检测技术、基因组分析技术、基因芯片技术、蛋白质组分析技术、分子成像技术、动态检测技术等。 3.3 .3 加强对数据的解析和模型构建:重视相关模式生物的研究,加强对不同技术平台中得到的数据的解析和模型构建,充分发挥生物信息学的作用。系统生物学的理想就是要得到一个尽可能接近真正生物系统的理论模型,建模过程贯穿在系统生物学研究的每一个阶段,需要实验研究和计算机模拟及理论分析的完美整合。目前这方面还面临着很大的挑战性 ,也取得了一定的进展,如系统生物学标记语言(systems biology markup language)的开发 ,系统生物学软件和数据库的开发 ,新的数学方法的应用等 。 3.3 .4加强科研人员与临床医生的紧密合作:科学家希望通过肿瘤系统生物学的研究来解决目前临床上面临的问题,这需要科研人员与临床医生的紧密合作,更应结合循证医学,问题来自于临床并与临床资料紧密结合,再把研究成果应用于临床,以推进目前对肿瘤的诊断和治疗水平。最近,麻省理工学院(MIT)、哈佛(Harvard)与博大(Broad)基金合作建立一个耗资一亿美元的有临床医生参加的研究中心博大研究院(The Broad Institute),其目的是推动系统生物学的研究并与临床应用相结合。 3.3 .5肿瘤资源库建立与分析:肿瘤资源库是研究的基础,为研究及时提供材料,应有目的、系统地收集和保存常见肿瘤的组织标本和血液标本等。一方面研究标本的保存技术,另一方面结合完整的临床资料加强对资源库的整理分析,实现资源的有效利用。 3.3 .6加强交流与合作,搞好教育与培训:系统生物学还是典型的多学科交叉研究,他需要生命科学、信息科学、数学、计算机科学、化学、工程学、物理学等各种学科的共同参与。还需要患者、护士、医生、政府、保险公司等合作,为了更好的合作需要开发大家都可理解的语言。 3.3 .7加大科研投入: 肿瘤系统生物学研究是一项长期的计划,因而需要大量的资金投入来保证。美国在肿瘤系统生物学方面投入了大量资金,如美国癌症研究所(NCI)提供2350万美元支持华盛顿大学,西雅图佛瑞德.赫钦森(Fred Hutchinson)癌症研究中心(FHcrc)和系统生物学研究所去研究前列腺癌。呼吁国家和地方投入急需的研究资金。 4结语 系统论、控制论早已成功的应用于工程学,在生物学领域也早有尝试。生物学发展到今天将使系统生物学的研究成为可能,而肿瘤是一个非常复杂的生物系统,因而肿瘤系统生物学呼之欲出。世界各国都非常重视对这一领域的研究,预计将很快成为热点领域,将在攻克癌症的征途上产生深刻的影响。 参考文献 1 Lander ES, Linton LM, Birren B, et al. Initial sequencing and analysis of the human genome. Nature, 2001, 409 (6822): 860-921. PMID: 11237011 2 Venter JC, Adams MD, Myers EW, et al. The sequence of the human genome. Science, 2001, 291 (5507): 1304-1351. PMID: 11181995 3 Collins FS, Lander ES, Rogers J, et al. Finishing the euchromatic sequence of the human genome. Nature, 2004, 431 (7011): 931-945. PMID: 15496913 4 Collins FS, Morgan M, Patrinos A. The human genome project: lessons from large-scale biology. Science, 2003, 300 (5617): 286-290. PMID: 12690187 5 Bentley DR. Genome for medicine. Nature, 2004, 429 (6990): 440-445. PMID: 15164068 6 Austin CP. The impact of the completed human genome sequence on the development of novel therapeutics for human disease. Annu Rev Med, 2004, 55: 1-13. PMID: 14746506 7 Westerhoff HV, Palsson BO. The evolution of molecular biology into systems biology. Nat Biotechnol, 2004, 22 (10): 1249-1252. PMID: 15470464 8 Hood L. A personal view of molecular technology and how it has changed biology. J Proteome Res, 2002, 1 (5): 399-409. PMID: 12645911 9 Kitano H. Systems biology: a brief overview. Science, 2002, 295 (5560): 16621664. PMID: 11872829 10 Weston AD, Hood L. Systems biology, proteomics, and the future of health care: toward predictive, preventative, and personalized medicine. J Proteome Res, 2004, 3 (2): 179-196. PMID: 15113093 11 Bugrim A, Nikolskaya T, Nikolsky Y. Early prediction of drug metabolism and toxicity: systems biology approach and modeling. Drug Discov Today, 2004, 9 (3): 127-135. PMID: 14960390 12 Drews J. Drug discovery: a historical perspective. Science, 2000, 287 (5460): 19601964. PMID: 10720314 13 Zhu H, Huang S, Dhar P. The next step in systems biology: simulating the temporospatial dynamics of molecular network. Bioessays, 2004, 26 (1): 68-72. PMID: 14696042 14 Covert MW, Knight EM, Reed JL, et al. Integrating high-throughout and computational data elucidates bacterial networks. Nature, 2004, 429 (6987): 92-96. PMID: 15129285 15 Mori H. From the sequence to cell modeling: comprehensive functional genomics in Escherichia coli. J Biochem Mol Biol, 2004, 37 (1): 83-92. PMID: 14761306 16 Stelling J, Gilles ED. Mathematical modeling of complex regulatory networks. IEEE Trans Nanobioscience, 2004, 3 (3): 172-179. PMID: 15473069 17 Castrillo JI, Oliver SG. Yeast as a touchstone in post-genomic research: strategies for integrative analysis in functional genomics. J Biochem Mol Biol, 2004, 37 (1): 93-106. PMID: 14761307 18 Hood L, Heath JR, Phelps ME, et al. Systems biology and new technologies enable predictive and preventative medicine. Science, 2004, 306 (5696): 640-643. PMID: 15499008 19 Halvorsen OJ, Oyan AM, Bo TH, et al. Gene expression profiles in prostate cancer: association with patient subgroups and tumour differentiation. Int J Oncol, 2005, 26 (2): 329-336. PMID: 15645116 20 Celis JE, Moreira JM, Gromova I, et al. Towards discovery-driven translational research in breast cancer. FEBS J, 2005, 272 (1): 2-15. PMID: 15634327 21 Khalil IG, Hill C. Systems biology for cancer. Curr Opin Oncol, 2005, 17 (1): 44-48. PMID: 15608512 22 Oh P, Li Y, Yu J, et al. Subtractive proteomic mapping of the endothelial surface in lung and solid tumours for tissue-specific therapy. Nature, 2004, 429 (6992): 629-635. PMID: 15190345 23 Goesmann A, Linke B, Rupp O, et al. Building a bridge for the integration of heterogeneous data from functional genomics into a platform for systems biology. Journal Biotechnol, 2003, 106 (2-3): 157-167. PMID: 14651858 24 Dhar PK, Zhu H, Mishra SK. Computational approach to systems biology: from fraction to integration and beyond. IEEE Trans Nanobioscience, 2004, 3 (3): 144-152. PMID: 15473066 25 Finney A, Hucka M. Systems biology markup language: level 2 and beyong. Biochem Soc Trans, 2003, 31 (pt 6): 1472-1473. PMID: 14641091 26 Dhar P, Meng TC, Somani S, et al. Cellware-- a multi-algorithmic software for computational systems biology. Bioinformatics, 2004, 20 (8): 1319-1321. PMID: 14871872 27 Steinhauser D, Usadel B, Luedemann A, et al. CSB.DB: a comprehensive systems-biology database. Bioinformatics, 2004, 20 (18): 3647-3651. PMID: 15247097 28 Priami C, Quaglia P. Modelling the dynamics of biosystems. Brief Bioinform, 2004, 5 (3): 259-269. PMID: 15383212