科学网

 找回密码
  注册

tag 标签: 生物信息学

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

分享一本生物信息学算法与实践的资料
热度 1 cs2bioinfor 2010-8-5 20:46
在网上看到这本资料,也许其中的内容对很多人来讲过于简单吧。不过还是把它放到这里,有需要的同学可以看看。 生物信息学算法与实践 (下载请点击)
个人分类: 生物信息学|3981 次阅读|1 个评论
[转载]浅谈de novo assembly(通俗易懂)
热度 1 qqsvery 2010-7-16 11:12
短序列组装几乎是近年来next-generation sequencing最热门的话题。简单来说,就是把基因组长长的序列打断(shotgun sequencing),因为我们不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而我们又无法实现一次把整条长序列完整测序(现在有单子测序可能是一个新的sunlight)。然后,我们通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。 就好比我们有这样一句话: it is just a hypothesis, so don't be seriously! 假设,我们现在不知道这句话到底是什么,就像我们有一个box,我们抽到一张纸,但没打开,我们把这张纸撕成pieces,当然可能还发生了变化,所有的空格和标点都消失了(魔术!)我们得到: itis ypo stah the sodo eriou siss ju ntbes sly 因为我们测了几次,为了增加覆盖度,这样我们能通过高覆盖度而提高置信度: itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju 另外,我们又发明了一种称作为paired-ends的序列测序方法,即两头定长,中间插入片段一定的序列,像这样: iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly 这样我们根据如下图的方法,我们可以把这句话拼回来: itisjustahypothesissodontbeseriously 但它不是最终结果,我们根据我们的现有的语法习惯,我们给它们加上空格(gap)和标点(遗漏的关键东西),我们能够还原原话! 但事实它并不简单,因为基因组中含有大量的重复序列(Repeats),多态性变异(Polymorphism),测序错误(Sequencing error),所以我们可能会把一条序列连成很多路(图论),或者回环等,如velvet: 它们有时不但只是通过简单的统计学算个N50就能得出最佳路线,可能会涉及到复杂的纠错和线性化过程。 现有有两条路子,一参考原有参考基因组,我们用map resequencing的方法,来找出consensus,当然我们可以结合RNA sequencing, ChIP sequencing, SNA detection,methyl-seq,CNV detection(以前我认为这是一个不错的出路,但后来因为工作搁置没进一步研究),我们可参考lh3大哥的Maq策略: 当然,并不是所有的基因组都有参考序列,所以我们还有 图论 的策略,如velvet,当然现有很多算法和程序已经得到比较满意的结果,如: * MIRA2 - MIRA (Mimicking Intelligent Read Assembly) is able to perform true hybrid de-novo assemblies using reads gathered through 454 sequencing technology (GS20 or GS FLX). Compatible with 454, Solexa and Sanger da ta. Linux OS required. * SHARCGS - De novo assembly of short reads. Authors are Dohm JC, Lottaz C, Borodina T and Himmelbauer H. from the Max-Planck-Institute for Molecular Genetics. * SSAKE - Version 2.0 of SSAKE (23 Oct 2007) can now handle error-rich sequences. Authors are Ren Warren, Granger Sutton, Steven Jones and Robert Holt from the Canada's Michael Smith Genome Sciences Centre. Perl/Linux. * VCAKE - De novo assembly of short reads with robust error correction. An improvement on early versions of SSAKE. * Velvet - Velvet is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454. Need about 20-25X coverage and paired reads. Developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI). 但,我们的数学家生物信息学家完全沉溺在算法改进,可改来改过,从未见过一个版本的short reads assembly能站出来说,这个版本是最准确的! 其实,我认为算法不是瓶劲,而是计算资源,计算成本,并行计算的实现!当然人们说,我们有Grid,有super computer,有集群,有cloud,可这些战斗机,并没有而且没必要用在只用跑车就能运行的基因组组装上。 从物理的角度上思考,我们并不需要建立复杂的模型,就比我们去学一门外星语言,of course我们不能与之交流,这就是一个解码过程。我们可以通过统计,了解并发现其中的自然规律(只要是事件都有固有规律,语言更是),我们可以知道其单词(当然可能是声音、光、触觉、肢体语言、脑电波,anyway不管什么表达方式)的出现频率,停顿时间,语调(可能是光强度,色度等),然后,通过外部事物的接触,我们就能知道其语意,并创造我们的单词、句子,好比婴儿学语(人工智能范畴)。它们其实就是个熵、焓计算,因为自然本身是有规律的,只期待着我们去发现!那么,我们可以把这样的统计模型放在assembly上,应该是通用的,我们可以建立一个并行计算中心,我们不用什么for(){}语句,就一个计算交由一个CPU(GPU)让它去运行,算出我们的最大似然值,熵极值,那就是答案!
个人分类: 生活点滴|4131 次阅读|1 个评论
研究热点:生物信息学 数据库 序列比对
xupeiyang 2010-7-8 09:21
中国知网(CNKI)基于数据库的数据挖掘、知识发现和信息整合技术,分析出各科技领域的科研热点和研究前沿,对科研人员了解、掌握科技动态与进展很有帮助。 科研热点的相关信息包括:相关文献、专利文献、科技成果、国家科研项目、研究人员、研究机构、研究主题、学术文献被引情况和下载情况等。 相关研究项目,科研人员应当特别关注正在进行中的科研项目(2010 - 2014年的在研项目),了解在研项目的研究动态,跟踪科技进展。目前,国内还没有一个在研科技项目数据库可供检索查阅的,在CNKI平台查阅比较方便。 详细信息见: http://elib.cnki.net/grid2008/DetailHot/HotView.aspx?subCode=A006-37 热点名称: 生物信息学 数据库 序列比对 知识点: 生物信息学 数据库 序列比对 多序列比对 人类基因组计划 基因组信息学 基因组学 生物信息 蛋白质组学 遗传算法 序列比对算法 蛋白质序列 数据挖掘 算法 基因芯片 数据挖掘技术 计算机科学 生命科学 二次数据库 双序列比对
个人分类: 热点前沿|4109 次阅读|0 个评论
测序结果的分析
Best2009 2010-6-4 13:23
测序结果的分析 测序都是从 5' 端进行的,正向和反向测序是指对 DNA 的两条互补链分别测序,通常两个方向测序结果经校读后完全一致才能认为得到可靠结果。生工测序结果一般都提供两个文档,一个是 TEXT 的序列文档,一个是用 Chromas 软件打开的 ABI 文档。 1. 寻找引物 http://blast.ncbi.nlm.nih.gov/Blast.cgi 比对,去除引物序列,找到目的片段。 在 DNAMan 上进行比对,看引物能不能比对上(一个不变,一个反向互补),如果比不上,那可能就不是你要的序列,如果能比上,上游以引物第一个为分界线,去除前面的;下有一最后一个为分界线,去除后面的,剩下的就是目的序列。然后在 NCBI 上 Blast. 就 OK 了。 批注: PCR 产物进行测序的结果可能不包含引物序列 2. 将找到的对应目的片段转成 *.txt 格式 3. 下载 BioEdit 软件 第一:打开 Bioedit 软件,导入拼接好的样品序列与标准亚型参考序列 File New Alignment Sequence New Sequence 导入拼接好的样品序列和标准参考序列(从 TEXT 文档利用复制粘贴工具) Apply and close 保存结果关闭窗口 第二:点击菜单栏上按钮 Accessory Application ,选择 Clustalw Multiple Alignment File Open Accessory Application Clustalw Multiple Alignment 第三:比对结束后,删除比对序列两端的多余序列,使所有序列等长 选择需要编辑的序列 Sequence Edit Sequence 进行序列的编辑保存修改后结果 第四:选择 Sequence 菜单下的 Gaps ,点击 Lock Gaps 第五:将比对后的序列保存为 Fasta 格式文档 4. 下载 MAGE4.0 软件 1) 打开 MEGA 软件,选择 File 菜单栏中的 Convert To MEGA Format ,把序列文件的格式转换为 meg 文档保存; 2) 双击序列的 meg 文档,选择 Nucleotide Sequences ,点击 OK ; 3) 程序运行中询问是否为蛋白编码序列,选择 NO ; 4) 在 MEGA 操作界面选择 Phylogeny 菜单栏下 Bootstrap Test of Phylogeny 中的 Neibour-Joining ; 5) 选择 Test of Phylogeny 栏中的 Bootsrap , Replications 设定为 1 000 ;在 Options Summary 栏中的 Model 项中,设定参数为 Kimura 2-Paramete r ,最后选择 Compute ; 6) 将分析结果采用 Los Alamos HIV 序列库提供的 HIV-BLAST 和 Subtyping 工具进行验证。
个人分类: 未分类|22910 次阅读|0 个评论
关于序列:文本、音乐、DNA等
timy 2010-5-27 00:48
现实生活中存在的序列有很多,如文本、音乐、DNA序列等。由于都是序列,所以关于一些序列处理的基本方法,有很多是相通的,比如序列切分、序列比对、序列相似度的计算等。 目前在文本挖掘(或机器学习)领域,主题模型(Topic model)研究的很火,基本想法就是文本集不直接用词语(word)来表示,而是通过隐含主题(topic)来表示。 主题模型的基础是概率模型,让人觉得主题模型的提出者,是突发奇想,搞出这么一个模型,后来又有很多人搞出一些变种模型出来。但如果将处理对象换成是音乐的乐谱或者DNA序列,这个东西似乎容易理解些。换成是音乐,似乎天然就存在所谓的主题模型:乐谱的基本构成比文本构成要简单的多,7个符号组成谱子,可以表达不同主题(怀旧的、忧郁的等)。如果是DNA,4个符号(A、C、G、T)组成的序列,具有不同的功能。 由于文本的基本组成部分(文字或者词语)比音乐、DNA的规模要大的多,所以做文本的主题模型,似乎难度要大得多(若要考虑所有文字的排列组合,这显然是个不可计算问题),所以现阶段,在一定规模的语料库上做的主题模型,用概率是必然的了。 若将文本挖掘领域的主题模型引入到音乐分析中,那么只用大规模的乐谱,不同主题类别的音乐似乎可以被机器自动识别出来。同样,DNA序列分析里,也可以借鉴主题模型。 以上是些零星想法,不正确的地方,还请懂行的朋友指正。
个人分类: 科学评论|6234 次阅读|3 个评论
我自己的软件系统__分子矩阵分析系统
热度 2 chgh76 2010-5-21 11:53
今天博客首开,博士亦即将毕业了,在这里秀一秀自己辛苦开发的一个药物设计系统,虽然很简陋,但是毕竟是自己娃,希望有志者一起来讨论完善。 分子矩阵分析系统 (The Analysis System of Molecular Matrix, ASMM) 系统说明 : 本软件是在博士攻读期间独立完成开发,系统分为三个部分: ① :分子输入系统, ② :描述子计算系统, ③ :数据分析系统。为了确保系统的正确性,在相同参数设置情况下,所有算法结果均经 SPSS15.0 和其它算法的外部软件,如独立的 LIBSVM 包,直接检验校正。 开发工具 : 本软件以 VC++2005和MatLab7.0 为开发工具。 环境要求 : 1 .WINDOWS 2000/XP 2. PC (586 以上 ) 机,将屏幕大小设为 1280800 功能介绍 ① 分子输入系统 分子输入系统通过批量读入 SYBYL2 格式分子文件,采用回溯算法,依据外部定义的标准子结构片段对读入的分子结构进行检查校正,确保输入分子结构的正确性。 ② 描述子计算系统 该系统主要是实现分子分子结构的数据化,它在读入分子结构文件的基础上,集成了分子结构描述子的自动计算,其中描述子主要包括 3D-HoVAIF , Vmed 、 EState 和 Pmaif 的计算,在这些描述子的计算中,均能够随意的改变原子分类方案和拓扑路径的计算方法,同时该部分亦提供了多肽的数据化计算系统。 ③ 数据分析系统 该系统主要是实现对分子数据的自动化处理,提取合理结构参数进行设计分子预测分析,在该系统中主要包含的算法有主成份分析 (PCA) 、前向逐步线性回归 (FSMLR) 、前向逐步线性判别分析 (FSLDA) 、偏最小二乘回归与判别分析(PLSr and PLS_DA)、支持矢量机回归 / 分类 ( 集成 LIBSVM) 和反向传播神经网络回归 / 分类 (BPANN) 。 程序设置界面系统 界面很乱,以后再逐步细化。 ① 描述子计算结果示例 ② PLS回归结果
个人分类: 生活点滴|5919 次阅读|3 个评论
[转载]JGI 撑不住了,把产生的基因组数据转移到NERCS计算中心
lry198010 2010-4-23 14:05
JGI-联合基因组研究中心,美国能源部的一个基因组研究中心,也许是世界上最大的非动物基因组测序研究中心了,预计今年其基因组数据量将到达4-5Tb,这样庞大的数据,他们感到已经难以承受数据的存储、分析所需计算设备的压力了,这促使JGI寻求更专业的计算设备维护和管理中心。 从这点来看,以后,测序中心将不会关注数据存储、分析所需要的计算能力,这样的计算能力可以使用别家的计算中心,比如云计算中心。那么测序中心很重要的一点就是如何快速的把测序获得的数据传输到云计算中心上以进行处理。可以预计,随着测序费用的下降,和基因组测序的广泛应用,测序服务中心和云计算中心的合作将会成为一种趋势! JGI Consolidates High-Performance Computing Operations into NERCS April 20, 2010 By Alex Philippidis NEW YORK (GenomeWeb News) – The Joint Genome Institute says the torrent of sequencing data it has generated, and plans to generate this year, explains its decision to consolidate its high-performance scientific computing operations into the US Department of Energy's National Energy Research Scientific Computer Center (NERSC). JGI has agreed to transfer to NERSC six Lawrence Berkeley National Laboratory employees specializing in scientific computing, including computer and network security and instrumentation computer systems. JGI's desktop support services will remain under the control of the institute, which is located in Walnut Creek, Calif. The consolidation, announced April 12, follows JGI's expectation this year that it will multiply the quantity of data it expects to generate through its sequencing of plant, microbe, fungal, and metagenomes. That quantity surpassed 1 terabase, or 1 trillion bases, in 2009, an eight-fold increase over 2008 — with "maybe 4 to 5 trillion this year" expected to be sequenced, JGI spokesman David Gilbert told GenomeWeb Daily News. "In that alone, you can tell why we need that computational horsepower that we could handle on our own, but now it's getting to the point where it's just crazy. Why build something in house when we've got a partnership where all the folks who are, in effect, being transferred over to NERSC? They've been Lawrence Berkeley people anyhow, so it's not a major change from their perspective," Gilbert said. The institute's current data center lacks the capacity to store the exponentially higher amount of data projected, and JGI staff did not have the same breadth of experience with running very large-scale systems that staffers at the computer center have, Jeff Broughton, systems department head at NERSC, told GWDN. Under the consolidation, NERSC will be responsible for existing JGI scientific computing equipment and new equipment to be procured, which will be housed about 16 miles southwest of Walnut Creek, at the computer center's Oakland facility. Broughton said the new equipment will include 500 dual-socket, quad-core Nehalem processor nodes from SGI — of which 160 nodes are in place, with the remaining 340 nodes "expected to arrive within the next six weeks, by the end of May" — as well as a 120 nodes from the IBM iDataPlex system already in use at NERSC's "Magellan" cloud computing cluster, part of a joint research effort between NERSC and the Argonne Leadership Computing Facility, funded with $32 million from the $862 billion American Recovery and Reinvestment Act. "In general, genomics is a pretty good fit for cloud computing, and they were able to take advantage of that," Broughton said. "The new sequencers are producing ever-increasing flows of data, and it's important to make sure that the computational infrastructure scales appropriately to match it," he added. He said NERSC runs "in excess of" 50,000 cores for high-performance computing now, a figure expected to quadruple by the end of the year. JGI would account for about 10 percent of NERSC's total computing power, based on core count. By teaming with NERSC, JGI can enjoy access to a dedicated 10 Gbps-per-second link between both institutions on the Science Data Network of the Energy Sciences Network, as well as other benefits, such as redundant cooling systems, an uninterruptible source of power, environmental and energy-use monitoring, and a central help desk.
个人分类: next-generation-sequence|7719 次阅读|0 个评论
《系统生物学》教学大纲
MaBinGuang 2010-4-18 21:45
打算开《系统生物学》的课程,在网上搜了搜,却没有找到该科目的教学大纲可以参考,于是就自己写了一个草稿,供同仁参考(转载或引用请注明出处)。 系统生物学 课程编码: 课程名称: 系统生物学 总学分: 3 总学时: 52学时 课程英文名称: SystemsBiology 先修课程: 生物化学、细胞生物学、分子生物学、高等数学、计算机基础 适用专业: 生物科学生物技术生物工程 一、课程性质、地位和任务 《系统生物学》是生物科学、生物技术和生物工程专业的前沿选修课。系统生物学是生命科学的新研究领域,其目的是在系统水平上理解生物体。区别于传统意义上以生物分类为研究内容的“老”系统生物学,新“系统生物学”的研究是后基因组时代,以坚实的分子生物学知识为基础,对“还原论”和分析方法的反思与超越,侧重于“整体论”和综合方法,是建立在分子及其相互作用基础上的生理学,被誉为“21世纪的生物学”。系统生物学代表着生命科学发展总体趋势的大方向。通过本课程的学习,希望学生了解系统生物学的基本概念和研究内容,掌握生物系统分析和建模的基本原理,拓宽视野,培养全局观,形成系统的思维方式,从而更全面地认识和理解生命现象,也有助于把握本世纪生命科学研究的总体方向。 二、课程基本要求 1、了解系统生物学的产生背景和学科体系; 2、理解系统生物学的三大学科基础和两大技术支撑; 3、了解常用的生物信息资源和“组学”的分支及研究现状; 4、掌握系统生物学中的建模方法和仿真手段; 5、了解系统生物学系统水平分析的内容。 三、教学内容及安排 第1章绪论(2学时) 教学目标:了解系统生物学的产生背景,认识系统生物学的研究内容,掌握其研究方法和一般工作流程,并了解系统生物学出现所带来的影响及其应用前景。 本章重点:系统生物学的基本概念和学科体系 难点:系统生物学与生理学的区别 1.1系统生物学的产生背景(了解) 1.1.1生理学 1.1.2分子生物学 1.1.3“组学”与生物信息学 1.2系统生物学的定义和研究内容(掌握) 1.2.1系统生物学的定义 1.2.2系统生物学的研究内容 1.2.3系统生物学的研究方法 1.3系统生物学的应用前景(了解) 第2章生物学基础(4学时) 教学目标:了解生命起源的学说和生命进化的历程,认识细胞的结构、分子组成和物理化学作用,理解并掌握分子生物学的中心法则,特别是其中的信息流动和基因决定作用,了解细胞分裂和个体发育的过程。 本章重点:物质代谢和分子生物学中心法则 难点:基因决定论的是与非 2.1生命的起源与进化(1学时)(了解) 2.1.1生命起源的学说 2.1.2生命的化学进化 2.1.3生命的生物进化 2.2细胞结构与物质代谢(1学时)(掌握) 2.2.1细胞的构成 2.2.2生物分子的合成与分解 2.2.3生物分子中的化学键和重要作用力 2.3分子生物学中心法则(1学时)(掌握) 2.3.1基因表达的信息流向 2.3.2基因表达的调控 2.3.3表达后蛋白的修饰 2.4细胞周期与胚胎发育(1学时)(了解) 2.4.1细胞的分裂过程 2.4.2胚胎的发育过程 第3章系统科学基础(7学时) 教学目标:理解系统的概念,了解系统科学的发展历史和学科精要,知道系统的组织和控制原理,掌握系统的建模和仿真的方法及各种模型适用的问题类型,学会系统的动态分析和仿真误差分析。 本章重点:系统的建模与仿真 难点:系统的动态分析 3.1系统概述(1学时)(了解) 3.1.1系统和系统学的定义 3.1.2系统的组织原理 3.1.3系统的控制 3.2系统建模(2学时)(掌握) 3.2.1系统的网络模型 3.2.2系统的微分方程模型 3.2.3系统的Multi-Agent模型 3.3系统仿真(2学时)(掌握) 3.3.1机械仿真和模拟电路仿真 3.3.2计算机仿真 3.3.3仿真误差分析 3.4系统科学精要(2学时)(了解) 3.3.1系统科学的发展历史 3.3.2老三论(系统论、控制论、信息论)精要 3.3.3新四论(耗散结构理论、协同学、超循环理论、突变论)精要 3.3.4复杂非线性系统科学(混沌、分形、复杂适应系统、人工生命)精要 第4章数学基础(6学时) 教学目标:理解系统建模中用到的线性代数的基础知识,掌握用图论和微分方程描述系统的方法,知道系统生物学中广泛存在的网络模型的实例,并了解生物系统的随机特征及相关的统计学方法。 本章重点:图与网络理论 难点:微分方程的应用 4.1线性代数(1学时)(理解) 4.1.1矢量、矩阵、线性变换 4.1.2线性方程 4.1.3线性与非线性的比较 4.2微分方程与差分方程(2学时)(掌握) 4.2.1常微分方程 4.2.2偏微分方程 4.2.3离散化与差分方程 4.3图和网络理论(2学时)(掌握) 4.3.1图和网络的概念 4.3.2网络分析的内容 4.3.3系统生物学中的网络实例 4.4统计学与随机过程(1学时)(了解) 4.4.1描述性统计 4.4.2统计推断与假设检验 4.4.3随机过程理论 第5章实验技术(4学时) 教学目标:了解系统生物学研究中用到的常规实验技术和高通量技术,了解转基因生物和RNA干扰等手段在系统生物学中的应用,认识四维显微观测技术在细胞系研究中的独特作用。 本章重点:高通量技术 难点:质谱技术 5.1基本技术(1学时)(了解) 5.1.1离心与层析 5.1.2酶切与电泳 5.1.3PCR技术 5.1.4杂交和印迹技术 5.2高通量技术(1学时)(了解) 5.2.1克隆载体与DNA文库 5.2.2DNA和蛋白质芯片 5.2.3酵母双杂交 5.2.4质谱技术 5.2.5ChIP-chip和ChIP-PET技术 5.3转基因生物、RNA干扰(1学时)(了解) 5.4四维显微观测技术(1学时)(了解) 第6章计算技术(5学时) 教学目标:认识计算机技术是系统生物学研究中不可或缺的技术手段之一,掌握一两门高级程序设计语言和面向对象的编程范式,了解数据库和网络技术在计算系统生物学中的应用,知道并行计算技术在处理大规模系统问题时的必要性。 本章重点:高级程序设计语言和脚本语言 难点:面向对象的程序设计 6.1程序设计技术(2学时)(掌握) 6.1.1程序设计语言 6.1.2面向过程与面向对象的程序设计 6.1.3常用的编程工具 6.2数据库技术(1学时)(了解) 6.2.1数据管理方式的演变 6.2.2关系型数据库与SQL语言 6.2.3数据的集成与交换 6.3网络技术(1学时)(理解) 6.3.1计算机网络概述 6.3.2服务器-客户端结构 6.3.3网络开发的LAMP体系 6.4平行计算技术(1学时)(了解) 6.4.1并行计算与串行计算的比较 6.4.2微机集群的架构与应用 6.4.3并行计算的新趋势:基于多核CPU与GPGPU的程序设计 第7章生物信息资源(3学时) 教学目标:掌握常用的生物信息数据库和算法服务,了解常用的系统生物学平台和建模工具。 本章重点:网络建模、分析工具和系统生物学平台。 难点:网络比对的方法。 7.1常用数据库(1学时)(掌握) 7.1.1序列和结构数据库 7.1.2基因表达数据库 7.1.3蛋白相互作用数据库 7.1.4代谢途径数据库 7.1.5动力学和模型数据库 7.2常用的算法和网络服务(1学时)(掌握) 7.2.1序列和结构比对算法 7.2.2进化树构建方法 7.2.3网络建模、比对和分析的方法 7.2.4PyBioS建模环境 7.3常用的建模工具(1学时)(了解) 7.3.1通用建模工具SimuLink和MapleSim 7.3.2Dizzy仿真工具 7.3.3SBW平台 第8章“组学”概述(4学时)(了解) 教学目标:了解“组学”的各个主要分支,认识其研究的意义、内容和现状,关注这些分支的发展趋势及其与系统生物学之间的关系。 本章重点:相互作用组学和代谢物组学。 难点:代谢物组学 8.1基因组学、转录组学、蛋白质组学、糖组学 8.2相互作用组学 8.3代谢物组学 8.4表型组学、系统组学 第9章系统生物学的模型与仿真(11学时) 教学目标:理解当前活跃在系统生物学领域中的主要模型和仿真手段,认识系统生物学的远大目标就是精确地模拟再现各层次的生命活动,并能人工合成生命。 本章重点:系统生物学模型的建模思路及仿真手段。 难点:建模中的关键变量和参数的选取及其对模型可解性的影响。 9.1代谢(3学时)(理解) 9.1.1酶动力学和热力学 9.1.2代谢网络 9.1.3代谢控制分析 9.2信号转导(2学时)(理解) 9.2.1配体-受体相互作用 9.2.2信号通路的构成 9.2.3动力学与调节特征 9.3生物过程建模(3学时)(理解) 9.3.1生物学震荡 9.3.2细胞周期 9.3.3衰老 9.4基因表达与调控(2学时)(理解) 9.4.1E.coli操纵子调控的建模 9.4.2真核基因表达的建模:一个例子、多种方法 9.5虚拟细胞与合成生物学(1学时)(了解) 第10章系统水平分析(3学时)(理解) 教学目标:理解系统生物学中系统分析的主要内容,认识影响系统鲁棒性的因素,正负反馈的作用,及流分析的应用。 本章重点:反馈分析和流分析 难点:流分析 10.1鲁棒性分析 10.2反馈分析 10.3流分析 第11章系统生物学展望(1学时)(了解) 教学目标:认识系统生物学的发展趋势和前沿课题。 四、其它教学环节安排 2学时课堂讨论 五、考核方式及成绩评定 考核方式为开卷考试,总成绩=平时成绩(20%)+期末考试成绩(80%)。平时成绩主要包括考勤和作业,作业主要是让学生阅读相关文献并讨论。 六、教材及主要参考文献 (1) 《系统生物学基础》 北野宏明编;刘笔锋,周艳红等译,化学工业出版社,2007。 (2) 《系统生物学的理论、方法和应用》 柯利普等著;贺福初等译,复旦大学出版社,2007。 (3) 《系统生物学:哲学基础》 布杰德等编著;孙之荣等译,科学出版社,2008。 (4) 张自立,王振英编著,《系统生物学》,科学出版社,2009。 (5)AlberghinaL.&WesterhoffH.V.(Eds.)SystemsBiology:DefinitionsandPerspectives(TopicsinCurrentGenetics),Springer-VerlagBerlinHeidelberg,2005. (6)PalssonB.O.SystemsBiology:PropertiesofReconstructedNetworks,CambridgeUniversityPress,2006. (7) KonopkaA.K.SystemsBiology:Principles,Methods,andConcepts,CRCPress,2006. (8) KrieteA.&EilsR.(Eds.)ComputationalSystemsBiology,ElsevierAcademicPress,2006. (9) WilkinsonD.J.,StochasticModellingforSystemsBiology,CRCPress,2006. (10) SangdunChoi(Eds.)IntroductiontoSystemsBiology,HumanaPress,2007. (11)FrederickB.Marcus,BioinformaticsandSystemsBiology:CollaborativeResearchandResources,Springer-VerlagBerlinHeidelberg,2008. (12)NakanishiS.etc.(Eds.)SystemsBiology:theChallengeofComplexity,SpringerTokyoBerlinHeidelbergNewYork,2009. (13)McDerMottJasonetc.(Eds.)ComputationalSystemsBiology(SpringerProtocals:MethodsinMolecularBiology),HumanaPress,2009. (14) OlegDemin&IgorGoryanin,KineticModellinginSystemsBiology,CRCPress,2009. (15) KlippE.etc.SystemsBiology:ATextbook,Wiley-VCH,2009. (16) 苗东升,《系统科学精要(第2版)》,中国人民大学出版社,2006。 (17) 高隆昌,《系统学原理》,科学出版社,2005。 (18) 岑沛霖等编著,《生物反应工程》,高等教育出版社,2005。 注:限于课时和篇幅,刻意忽略了有关免疫系统和神经系统等领域的系统生物学内容,也较少涉及与疾病(如糖尿病、癌症等)相关的系统生物学研究。 撰稿人:马彬广
个人分类: 未分类|8439 次阅读|1 个评论
[转载]分子生物学工具箱
ghsy 2010-4-4 20:01
分子生物学工具箱 分子生物学工具箱(转) 综合数据库: 最权威的生物信息学网址链接: http://www.bioinformatics.vg 生物信息学网址链接: http://www.bioinformatics.ca/links_directory/ Nucleic Acid Research Database Issue: http://nar.oupjournals.org/content/vol32/suppl_2/ 一、蛋白相关数据库 蛋白质结构域预测工具 Esignal: http://motif.stanford.edu/esignal/ 信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳 SignalP: http://www.cbs.dtu.dk/services/SignalP/ 信号肽预测工具,适合定位于非胞质位置的蛋白质 Emotif: http://motif.stanford.edu/emotif-search/ 结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好 Ematrix: http://fold.stanford.edu/ematrix/ 是用Matrix的方法创建的结构域数据库,可与emotif互相印证。其速度快,可快速搜索整个基因组 InterPro: http://www.ebi.ac.uk/InterProScan/ EBI提供的服务,用图形的形式表示出搜索的结构域结果 TRRD: http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ 转录因子结构域预测的最好数据库。但不会用 Protscale: http://cn.expasy.org/cgi-bin/protscale.pl 可分析该序列的各种性状如活动度、亲水性(KyteDoolittle)、抗原性(HoppWoods)等 通过寻找MOTIF和Domain来分析蛋白质的功能 A. MOTIF是蛋白中较小的保守序列片断,其概念比Domain小 PROSITE: http://cn.expasy.org/tools/scanprosite/ 是专门搜索蛋白质Motif的数据库,其中signature seqs是最重要的motif信息 B. Domain:若干motif可形成一个Domain,每个Domain形成一个球形结构,Domain与Domain之间通常像串珠一样相连 Pfam: http://www.sanger.ac.uk 可以搜索某段序列中的Domain,并以图形化表示出来。这个数据库非常重要。用法:在搜索栏中输入蛋白的swissprot的序列号 CDD: http://www.ebi.ac.uk/interpro/ NCBI搜索时在每个蛋白质Link旁都有Blink,Domains两个链接。Domains可以直接看到这个蛋白的确定的结构域。如果要在CDD数据库寻找Domain信息,则可进入Blink链接,再进行CDD搜索,就可以了。看Domain的详细信息可以到: http://www.ebi.ac.uk/interpro/ 上进行搜索查看 蛋白跨膜序列分析 kyte-Doolittle疏水性分析:每个等于或高于1.8的峰都可能是跨膜结构域 蛋白质结构预测工具 PREDATOR: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_preda.html 蛋白质二级结构预测工具 蛋白质糖基化位点的预测 http://bioresearch.ac.uk/browse/mesh/C0017982L1222670.html 这是个综合连接。包括:DictyOGlyc prediction server,NetOGlyc prediction server,YinOYang server,META II PredictProtein server,O-GLYCBASE,GlycoMod tool 蛋白质结构数据库 MMDB: http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml NCBI的蛋白质结构数据库,要使用Cn3D v4.1软件观看 PDB: http://www.rcsb.org/pdb/ Protein Data Bank, 要使用Swiss PDB viewer软件观看 蛋白质综合数据库 PIR: http://pir.georgetown.edu Uniprot http://www.pir.uniprot.org 二、核酸相关数据库 三大主要核酸序列数据库: EMBL: http://www.ebi.ac.uk/embl/ GenBank: http://www.ncbi.nlm.nih.gov/Genbank/ DDBJ: http://www.ddbj.nig.ac.jp RNA二级结构及非编码区功能预测: RNA二级结构预测: http://www.genebee.msu.su/services/rna2_reduced.html 速度快,生成图像 最好的RNA二级结构预测软件:mfold UTR功能区预测: http://bighost.area.ba.cnr.it/BIG/UTRHome/ 预测mRNA翻译能力的在线工具: http://wwwmgs.bionet.nsc.ru/programs/acts2/ma_mRNA.htm 其说明书在: http://wwwmgs.bionet.nsc.ru/mgs/papers/kochetov/bioinf/ RegRNA: http://bidlab.life.nctu.edu.tw/RegRNA2/website/ RFAM: http://www.sanger.ac.uk/Software/Rfam/ RNA world: http://www.imb-jena.de/RNA.html RNA resource Links: http://bidlab.life.nctu.edu.tw/RegRNA2/website/references/ 基因转录调控相关数据库 EPD http://www.epd.isb-sib.ch 真核生物启动子,好用 TRRD:Transcription Regulatory Regions Database 可搜索某一基因的调控区及相关转录因子 TRANSFAC: http://www.generegulation.de 可搜索所有转录因子的数据,好用 启动子数据库: http://www.epi.isb-sib.ch 转录因子结合位点 http://www.ejbiotechnology.info/content/vol3/issue3/full/2/bip/ 电子延伸相关在线软件 意大利CAP3软件: http://bio.ifom-firc.it/ASSEMBLY/assemble.html 强烈推荐使用,使用时只需将整个Unigene全部序列文件输入就可以了 序列比对在线软件 Multialin: http://prodes.toulouse.inra.fr/multalin/multalin.html 最好的多序列比对在线工具 FASTA: http://www.ebi.ac.uk/fasta/ , http://fasta.bioch.virginia.edu BLAST: http://www.ncbi.nih.gov/BLAST/ Motif的发现与利用Motif发现新的功能基因 MEME: http://meme.sdsc.edu/meme/website/intro.html 可以发现几个序列所共有的motif以及根据已知的motif搜索est数据库以发现新的基因,此软件输出结果不好读懂 BLOCK Maker: http://blocks.fhcrc.org in which Block maker is Very Good http://bioinformatics.weizmann.ac.il/blocks/blockmkr/www/make_blocks.html 可通过蛋白多序列比对寻找其中的保守区域,非常好用,易学 IRES及其他UTR功能序列的预测 UTRscan: http://bighost.area.ba.cnr.it/BIG/UTRScan/ , http://www.ba.itb.cnr.it/BIG/UTRScan/ 需要先注册email 三、表达数据库 EST聚类表达数据资源 Unigene: http://www.ncbi.nlm.nih.gov/unigene/ 不用说了,老牌的EST聚类程序,数据库质量很好,但毛病也不少,不过我常用它 TIGR: http://www.tigr.org/tdb/tgi/ 按独一无二的剪接体对EST进行聚类,并从中得出独一无二的共有的序列,每个Cluster的EST都有图形排列显示 Allgenes: http://www.allgenes.org 其EST聚类要求比较严格,但每个Cluster都有一个质量极高的mRNA序列,可轻松定位到基因组上 MIPS: http://mips.gsf.de/proj/human/ MIPS的EST聚类数据库。其中有个工具特别好,就是在BLAST服务中有个可以得到与BLAST基因相近EST的组织分布的程序 特殊的表达数据库 前列腺表达数据库: http://www.pedb.org 膀胱癌EST数据库: http://bladder.nhri.org.tw Microarray和SAGE表达数据库及其分析工具 全身正常组织microarray数据(U133A, U133B): http://www.dev.gmod.org 较全的全身正常组织microarray数据库,推荐,要搜索表达数据需在search中数据探针名称(U133A, U133B),注意必须安装Adobe SVG Viewer,得到的数据需要用photoshop颠倒过来才能观看。 斯坦福大学生物芯片数据库: http://genome-www5.stanford.edu/ 最好的生物芯片数据库,不仅数据源丰富,而且数据搜索软件功能齐全,但要学会也需要点时间 CleanEX: http://www.cleanex.isb-sib.ch 用于分析比较来源于不同技术平台的表达数据 EBI array database: http://www.ebi.ac.uk/arrayexpress/ 欧洲生物信息学会主办的基因芯片数据库 RAD: http://www.cbil.upenn.edu/RAD/php/ 功能与CleanEX近似,推荐使用 Gene Expression Db: http://discover.nci.nih.gov 提供60多个肿瘤细胞系的基因芯片数据 NIAID: http://madb.niaid.nih.gov ONCOMINE: http://141.214.6.50/oncomine/main/ AWR1Uko AND MY EMAIL非常好的肿瘤microarray数据库 GENEHOPPER: http://genehopper.lumc.nl/db/ 利用accession num将microarray数据与Genebank进行连接的软件 NetAffx: https://www.affymetrix.com/analysis/netaffx/index.affx Microarray Anotation Database:探针注释数据库 四、其它数据库 免疫学相关数据库 MHCI结合表型预测: http://bimas.dcrt.nih.gov/molbio/hla_bind/ 已经试过,非常好用 两种常用表位预测数据库 ProPred-I: http://www.imtech.res.in/raghava/propred1/ SYFPEITHI: http://www.uni-tuebingen.de/uni/kxi/ MHCI表型预测与蛋白酶体降解分析 SYFPEITHI的MHCI表型预测工具: http://syfpeithi.bmi-heidelberg.com/Scripts/MHCServer.dll/EpitopePrediction.htm SEREX数据库: http://www2.licr.org/CancerImmunomeDB/ CT抗原数据库: http://www.cancerimmunity.org/CTdatabase/ Immunology相关工具综合: http://www.cancerimmunity.org 特殊数据库 McGill: http://ww2.mcgill.ca/androgendb/ 雄激素受体数据库 肿瘤数据库 染色体突变数据库: http://www.infobiogen.fr/services/chromcancer/ 内源性逆转录病毒数据库: http://www.girinst.org 包含100多个内源性逆转录病毒家族,每个家族都给出了共有序列 基因注释数据库 ensemble: http://www.ensembl.org/Homo_sapiens/ 综合各种基因注释的平台 OE: http://vortex.cs.wayne.edu/Projects.html 基因功能注释的重要工具,提供每个注释的生物学意义的评分 GENMAPP: 将基因芯片数据综合在各种生物通路上,帮助分析表达数据的生物学意义 GeneCard: http://bioinformatics.weizmann.ac.il/cards/ 很全的基因卡片 突变数据库 HGMD突变数据库: http://archive.uwcm.ac.uk/uwcm/mg/hgmd/search.html 包含各种疾病和基因的突变数据 肿瘤基因数据库: http://condor.bcm.tmc.edu/ermb/tgdb/tgdb.html 搜索起来不是很方便 比较基因组学数据库 VISTA: http://www-gsd.lbl.gov/vista/ 最重要的比较基因组学在线软件,强烈推荐使用 PCR相关网站 引物数据库: http://pga.mgh.harvard.edu/primerbank/ 含180000条mRNA特异引物,非常好用 方便的实验室运算软件 MOLBIOL.RU: http://molbiol.ru/eng/scripts/ 可以进行随机核酸序列的产生,PCR条件优化运算等 密码子使用频度数据库: http://www.kazusa.or.jp/codon/ 代理列表 清华大学代理列表: http://www.ipcn.org 西郊天空: http://xjtusky.net/www/mod/ie/ GOOGLE镜像: http://google.ipcn.org 或 http://google.ipchina.org 本文引用地址: http://www.sciencenet.cn/m/user_content.aspx?id=279563
2685 次阅读|3 个评论
[转载]生物信息学研究
liujd 2010-2-10 18:37
生物信息学的现状与展望 The Current Status and The Prospect of Bioinformatics 中国科学院院士 张春霆 ( 天津大学生命科学与工程研究院 天津 300072) 摘 要 : 本文阐述了生物信息学产生的背景,生物学数据库,生物信息学的主要研究内容,与生物信息学关系密切的数学和计算机科学技术领域,生物信息学产业等内容,展望了其未来并提出了若干在我国发展生物信息学的建议。着重指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。 关键词 :人类基因组计划 生物信息学 一、生物信息学产生的背景 有人说,基于序列的生物学时代已经到来,尽管对“序列生物学”这一提法可能有所争议,但是今日像潮水般涌现的序列信息却是无可争辩的事实。自从 1990 年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约 40 多种生物的全基因组测序工作,人基因组约 3x10 9 碱基对的测序工作也接近完成。至 2000 年 6 月 26 日,被誉为生命“阿波罗计划”的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。它预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国 GenBank 数据库中的 DNA 序列总量已超过 70 亿碱基对。在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更快捷。可以预计,今后 DNA 序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在 DNA 序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于 cDNA 序列测序所建立起来的 EST 数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达 500 余个。这一切构成了一个生物学数据的海洋。可以打一个比方来说明这些数据的规模。有人估计,人类(包括已经去世的和仍然在世的)所说过的话的信息总量约为 5 唉字节( 1 唉字节等于 10 18 字节)。而如今生物学数据信息总量已接近甚至超过此数量级。这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。 数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。生物信息学这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现要早的多。鉴于这两门学科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。 二、生物学数据库 《 Nucleic Acids Research 》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。在 2000 年 1 月 1 日出版的 28 卷第一期中详细地介绍了 115 种通用和专用数据库,包括其详尽描述和访问网址。迄今为止,生物学数据库总数已达 500 个以上。在 DNA 序列方面有 GenBank 、 EMBL 和 DDBJ 等。在蛋白质一级结构方面有 SWISS-PROT 、 PIR 和 MIPS 等。在蛋白质和其它生物大分子的结构方面有 PDB 等。在蛋白质结构分类方面有 SCOP 和 CATH 等。应该指出,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。但是鉴于相当多的数据库的经营者们面临着财务紧缺的境地,这种免费的局面还能维持多久就不得而知了。有的数据库,如 SWISS-PROT ,已开始向商业用户每年收取数千至数万美元不等的使用费。其它数据库暂时还是免费的,但不知是否永远免费。如果一些重要的数据库对学术研究部门开始收费,这对于我国生物信息学的发展是非常不利的。中国是一个基因信息资源大国,我们应当抓紧建设我国自有的数据库,在世界上做出我们自己的贡献,在平等的基础上与国外共享生物信息资源。 三、生物信息学的主要研究内容 生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。 1 、序列比对( Alignment )。 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包—— BALST 和 FASTA ,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。 Smith-Waterman 算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。 2 、结构比对。 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3 、蛋白质结构预测,包括 2 级和 3 级结构预测,是最重要的课题之一。 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认( Threading )方法属于这一范畴。虽然经过 30 余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4 、计算机辅助基因识别 ( 仅指蛋白质编码基因 ) 。 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置 . 这是最重要的课题之一,而且越来越重要。经过 20 余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5 、非编码区分析和 DNA 语言研究,是最重要的课题之一。 在人类基因组中,编码部分进展总序列的 3~5% ,其它通常称为“垃圾” DNA ,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区 DNA 序列需要大胆的想象和崭新的研究思路和方法。 DNA 序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6 、分子进化和比较基因组学,是最重要的课题之一。 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用 DNA 序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,当然也渴望得到更丰硕的成果。这方面可做的工作是很多的。 7 、序列重叠群( Contigs )装配。 一般来说,根据现行的测序技术,每次反应只能测出 500 或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群( Contigs )。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接 EST 数据以发现全长新基因也有类似的问题。已经证明,这是一个 NP- 完备性算法问题。 8 、遗传密码的起源。 遗传密码为什么是现在这样的?这一直是一个谜。一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。 9 、基于结构的药物设计。 人类基因组计划的目的之一在于阐明人的约 10 万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其 3 级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。 10 、其他。 如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。 四、与生物信息学关系密切的数学领域 限于篇幅,仅列出它们的名称。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型( HMM ),在生物信息学中有重要应用;运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用,拓扑学,这里指几何拓扑,在 DNA 超螺旋研究中是重要工具,在多肽链折叠研究中也有应用;函数论,如傅里叶变换和小波变换等都是生物信息学中的常规工具;信息论,在分子进化、蛋白质结构预测、序列比对中有重要应用,而人工神经网络方法则用途极为广泛;计算数学,如常微分方程数值解法是分子动力学的基本工具;群论,在研究遗传密码和 DNA 序列的对称性方面有重要应用;组合数学,在分子进化和基因组序列研究中十分有用。原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学,这种情况正像过去的一、两个世纪,数学应用于物理学一样。而且,生物信息学的发展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支科学。 五、与生物信息学密切相关的计算机科学技术 首先是网络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统( LIMS )。其它诸如数据整合和可视化、数据挖掘( Data Mining )、基于 Unix 操作系统的各种软件包以及人工智能,和一些重要算法的复杂性研究。 六、生物信息学工业 生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它既属于基础研究,以探索生物学自然学自然规律为己任;又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。生物信息学的这一特点在现有的许多学科中几乎是独一无二的。 这里仅举一个例子来说明生物信息学工业的潜力。据报导,只有 50 名员工的德国 Lion 生物信息学公司,将通过扫描公共数据库中的序列来发现 500 个可能的药物作用靶点,以一亿美元的价格预售给德国 Bayer 公司。又据报导,生物信息学产业的市场在 1998 年已经达到 10 亿美元,而到 2002 年估计可增长到 2000 亿美元以上。这是一笔巨大的财富,任何政府的科技决策人都不能对此视而不见。 NIH 已向美国国会建议投资 160 亿美元在美国建立 5~20 个将生物学与计算结合起来的中心。法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。生物信息学工业是知识经济的一个典型,潜力巨大。 七、展望 与建议 生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测他对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚至几乎不可能。但是人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现。例如:对数百颗天体运行数据的分析导致了开普勒三大定律和万有引力定律的发现;数十种元素和上万种化合物数据的积累导致了元素周期表的发现;氢原子光谱学数据的积累促成了量子理论的提出,为量子力学的建立奠定了基础。历史的经验值得注意,有理由认为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段,所拥有的条件也大体相同,即使我国有关条件差一些,但差别也不大。因此,这是我国生物学赶超国际先进水平的一个百年一遇的极好机会。机不可失,时不再来,鉴于生物信息学在我国生物信息学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出面组织全国的力量,搞个类似“两弹一星”那样的,但是,规模要小的多,花钱也少的多的生物信息学发展计划,不是不可以考虑的。要充分发挥中央与地方,生物学科研究人员等方方面面的积极性。生物信息学研究投资少,见效快,可充分发挥我国智力资源丰富的长处,是特别适合我国国情的一项研究领域。要在大学里建立生物信息学专业,设立硕士点和博士点,培养专门人才。可以组织一大批数学、物理、化学和计算机科技工作者,在自愿的基础上,学习有关的生物学知识,开展多方面的生物信息学研究。经过十几年或更长的时间的努力,逐渐使我国成为生物信息学研究强国,是完全有可能的。 (2000 年 )
个人分类: 生物信息|154 次阅读|0 个评论
我对于生物信息学的理解
leether 2010-1-28 00:33
从事生物信息学的研究有很多年了,应该是中国第一批从事生物信息学学习和研究的人了,在这方面也曾经做了不少工作,积累了一些经验,虽然现在从事的工作中用到生物信息学的内容很少,但是作为一个从研究起步的人来说,始终存在着一个生物信息学的情结,希望不管是从学术上还是商业上,能在生物信息学领域做点工作。 生物信息学越来越来越普及,成为从事生物学研究,特别是分子生物学研究所必不可少的工具。对于生物信息学的学习者来说,以下几个问题是比较重要的: 一、问题: 需要使用生物信息学工具解决什么生物学问题?引物设计?序列比对?差异表达基因?等等。首先要搞清楚,自己要解决的问题是什么,然后才好去寻找合适的工具,或者开发合适的工具出来。 二、数据 巧妇难为无米之炊,机床要加工的是毛坯,厨师要加工的是各种原材料。生物信息学工具的输入就是各种各样的数据,要了解这些数据是怎么来的,其中是否存在着误差,反映了生物学上的什么信息。等等。 另外生物信息学中存在的大量工具是用于数据格式转换、数据存储、数据检索的。了解了这些之后,对于用户来说,对数据就会很敏感。实际中往往会出现这样的情况,从事生物学研究得人对于计算机或者软件很陌生,而从事计算机的人对于各种生物学上的各种代码会头晕,想起来搞数学的人看着DMSO半天不知道是什么意思。 数据这块儿最好是一个学习生物学的人,有毅力有兴趣学学基础的计算机知识,便于进行数据的整理。 三、工具 生物信息学领域工具多如牛毛,而且类别很多,有的是成品,拿起来就可以用,有的是半成品,还需要加工加工。有了问题,有了数据,寻找合适的工具来解决,是生物信息学人员所面临的问题,还有的时候是有了工具,去整理和收集合适的数据。 四、概念 随着生物信息学研究的深入,在生物信息学领域也开始出现一些专有名词,而这些词语往往是搞生物学研究或者计算机的都不熟悉的,这些概念的出现伴随着对于这个领域进一步深刻的认识。例如gene ontology。这个概念我认为更多的是为了更好的用生物信息学工具进行知识的整理而应运而生的。 因此,要从事生物信息学工作的人,看事情有时候难,有时候也不难,关键在于是否对于面临的每一项具体工作,能够识别和掌握上述四项内容。
个人分类: 生物信息学|10464 次阅读|2 个评论
Springer 2007年创刊的《认知神经动力学》被SCI收录
wanyuehua 2009-11-17 06:51
2007 年创刊的Cognitive Neurodynamics《认知神经动力学》,ISSN: 1871-4080 ,季刊,荷兰(SPRINGER, VAN GODEWIJCKSTRAAT 30, DORDRECHT, NETHERLANDS, 3311 GZ)出版,2008年入选 Web of Science的Science Citation Index Expanded,目前在SCI数据库可以检索到该期刊2007年的第1卷第1期到2009年的第3卷第3期共91篇论文。 91 篇文章包括学术论文81篇、评论8篇、社论1篇、更正1篇。 91 篇文章的主要国家分布:美国26篇,日本24篇,德国12篇,中国11篇,英国10篇,法国8篇,加拿大、新西兰各5篇,澳大利亚、印度、西班牙各3篇,以色列、意大利、荷兰、瑞典各2篇等。 中国在该期刊上发文的单位有重庆大学(CHONGQING UNIV)2篇、华东理工大学(E CHINA UNIV SCI TECHNOL)2篇、复旦大学(FUDAN UNIV)2篇、天津理工大学(TIANJIN UNIV TECHNOL)2篇。 91篇文章共被引用129次,其中2007年被引用4次,2008年被引用21次,2009年被引用104次,平均引用1.42次, H指数为5(有5篇文章每篇最少被引用5次)。 网址: http://www.springerlink.com/content/120385/ 作者指南: http://www.springer.com/cda/content/document/cda_downloaddocument/instr_print_11571.061023.pdf?SGWID=0-0-45-169448-p131585732 在线投稿: http://www.editorialmanager.com/cody/ 编委会: http://www.springer.com/biomed/journal/11571?detailsPage=editorialBoard 《Cognitive Neurodynamics》期刊的主编是华东理工大学认知神经动力学研究所所长王如彬教授 Editor-in-Chief: Rubin Wang, East China University of Science and Technology, P.R. China Managing Editor: Fanji Gu, Fudan University, P.R. China
个人分类: SCI投稿|7521 次阅读|0 个评论
生物信息学(bioinformatics)文献计量分析
热度 1 xupeiyang 2009-11-5 08:59
http://www.gopubmed.org/web/gopubmed/1?WEB05ajgv3ww6o3oItI1I00f01000j10040001rl 65,593 documents semantically analyzed 1 2 Top Years Publications ‍ 2008 10,175 ‍ 2007 9,435 ‍ 2006 8,476 ‍ 2009 8,335 ‍ 2005 8,018 ‍ 2004 6,256 ‍ 2003 4,582 ‍ 2002 3,250 ‍ 2001 2,211 ‍ 2000 1,485 ‍ 1999 821 ‍ 1998 671 ‍ 1997 341 ‍ 1996 296 ‍ 1991 196 ‍ 1995 195 ‍ 1993 178 ‍ 1994 166 ‍ 1992 163 ‍ 1990 125 1 2 1 2 3 ... 6 Top Countries Publications ‍ USA 25,178 ‍ United Kingdom 4,964 ‍ Germany 4,314 ‍ China 3,353 ‍ Japan 3,055 ‍ France 1,980 ‍ Canada 1,885 ‍ Italy 1,448 ‍ Spain 1,198 ‍ Australia 1,166 ‍ India 1,128 ‍ Netherlands 1,124 ‍ Sweden 1,059 ‍ Switzerland 902 ‍ South Korea 807 ‍ Singapore 623 ‍ Israel 620 ‍ Taiwan 603 ‍ Denmark 555 ‍ Belgium 543 1 2 3 ... 6 1 2 3 ... 82 Top Cities Publications ‍ Boston 1,192 ‍ Bethesda 1,126 ‍ Cambridge 1,122 ‍ New York 872 ‍ London 860 ‍ Beijing 830 ‍ Tokyo 760 ‍ Seattle 719 ‍ San Diego 710 ‍ Singapur 623 ‍ Cambridge, USA 617 ‍ Los Angeles 613 ‍ Heidelberg 574 ‍ Berlin 553 ‍ Shanghai 551 ‍ Houston 533 ‍ Baltimore 531 ‍ Toronto 470 ‍ Stanford 458 ‍ Berkeley 453 1 2 3 ... 82 1 2 3 ... 182 Top Journals Publications ‍ Bioinformatics 5,736 ‍ Nucleic Acids Res 2,253 ‍ Bmc Bioinformatics 1,713 ‍ Proteomics 1,574 ‍ J Proteome Res 1,330 ‍ Nature 1,068 ‍ Science 951 ‍ Methods Mol Biol 918 ‍ Proteins 898 ‍ Bmc Genomics 872 ‍ Genome Res 795 ‍ Genome Biol 760 ‍ P Natl Acad Sci Usa 683 ‍ Mol Cell Proteomics 597 ‍ J Mol Biol 501 ‍ J Biol Chem 479 ‍ J Comput Biol 466 ‍ Plos Comput Biol 408 ‍ Plos One 393 ‍ Pac Symp Biocomput 381 1 2 3 ... 182 1 2 3 ... 2320 Top Terms Publications ‍ Humans 29,708 ‍ Proteins 27,760 ‍ Computational Biology 25,688 ‍ Genomics 24,784 ‍ Genes 22,405 ‍ Genome 21,984 ‍ Animals 20,848 ‍ Proteomics 15,631 ‍ Proteome 13,307 ‍ Algorithms 11,775 ‍ DNA 7,723 ‍ Gene Expression Profiling 7,627 ‍ Amino Acid Sequence 7,482 ‍ gene expression 6,978 ‍ Gene Expression 6,934 ‍ Base Sequence 6,706 ‍ Mass Spectrometry 6,374 ‍ Biology 6,372 ‍ regulation of gene expression 6,347 ‍ Oligonucleotide Array Sequence Analysis 5,694 1 2 3 ... 2320 http://www.sciencenet.cn/m/user_content.aspx?id=267750 ² 1956 年,美国田纳西州 Gatlinburg 召开首次生物学中的信息理论研讨会。 ² 20 世纪 60 年代, Zucherkandl 和 Pauling 开创了分子进化这个全新的研究领域,主要通过序列分析研究序列变化与进化之间的关系。 ² 20 世纪 60 年代, Dayhoff 等收集了当时已知的氨基酸序列,这就是蛋白质序列与结构图册,这一蛋白质数据库后来成为著名的蛋白质信息源 PIR 。 ² 20 世纪 70 年代, Needleman-Wunsch 序列比对算法的提出是生物信息学发展史上的里程碑。 ² 20 世纪 70 年代, Gibbls 和 Mcintyre 发表矩阵打点作图法。 ² 20 世纪 70 年代, Dayhoff 提出的点突变模型的 PAM 矩阵作为比较氨基酸相似性的得分矩阵,大大提高了序列比较算法的性能。 ² 1980 年, Science 第 209 卷发表了关于计算分子生物学的综述。 ² 1981 年, Smith 和 Waterman 提出了著名了局部对位排列算法。 ² 1981 年, Doolittle 提出关于序列模式的概念 ² 1982 年, GCG 分子计算工具出现, ² 1985 年, FASTP 序列分析算法则发表。 ² 1988 年, Pearson 和 Lipman 发表了著名的 FASTA 序列运算法则。 ² 1900 年, BLAST 建立。 ² 1997 年, BLAST 的改进版本 PSI-BLAST 投入实际应用。 ² 1982 年,欧洲分子生物学实验室 EMBL 诞生,提供核算序列数据库服务。 ² 1982 年,美国国立卫生研究院下属的国立生物技术信息中心建立了 GeneBank 。 ² 1986 年,日本核酸序列数据库 DDBJ 诞生。 ² 1987 年,林华安博士正式命名生物信息学( bioinformatics )。 ² 1988 年,三大数据库达成协议:采用共同的数据库记录格式收集直接提交的数据。 ² 1986 年,出现蛋白质数据库 SWISS-PROT 。 ² 1995 年,第一个细菌全基因组序列——流感嗜血杆菌测定,这是人类拥有的第一个全基因组信息。 ² 1996 年,第一个真核生物基因组——面包酵母基因组完成测序。 ² 1996 年, Affymetrix 推出第一块基因芯片。 ² 1997 年,第一个实验模式生物——大肠杆菌的基因组完成测序。 ² 1998 年,第一个多细胞生物——线虫的基因组完成测序。 ² 2000 年,第一个植物拟南芥基因组完成测序。 ² 2000 年,果蝇的基因组完成测序。 ² 2001 年,人类基因组草图在 Nature 和 Science 同时发表。 ² 2002 年,水稻和小鼠基因组草图完成。 ² 2003 年,人类基因组计划完成。 ² 2003 年,中国首先完成非典型肺炎病毒全基因组测序。 ² 2005 年,国际水稻全基因组测序圆满完成。 ² 2006 年,国际研究组织完成了牛基因组的测序。 ² 2009 年, 马铃薯基因组序列框架图全球发布 。
个人分类: 信息分析|3109 次阅读|1 个评论
华中农业大学应该抓住机遇大量发展生物信息学中的计算机技术这一学科,以带动学校计算机科学等学科的发展
lry198010 2009-10-5 23:55
对于生物学研究来说,目前是一个值得万象更新的时代。以下一代测序技术快速发展所带来的巨大测序能力的提升,给了生物学家们无限的遐想。可以预计,在不久的将来,每一个个体或育种材料的基因组序列的测序将成为医生和育种家的常规分析策略。海量数据的获取,对数据分析提出了新的挑战,同时这种挑战一种机遇。如果我们能抓住这个机遇,以生物数据分析为对象,发展我们学校的计算机技术的学科,将是极大的优势。我觉得计算机技术可以考虑从以下几方面发展: (1)新一代测序技术下的数据分析软件的集合 (2)开发基于云计算平台的分析软件,这种软件可以是独立开发的,也可以是修改已有的软件 (3)研究高性能计算集群和并行软件的开发技术 在提供支持资金的同时,需要: (1)这个基金一定要给一部分经费用于共同研究生的培养,也就是说联合研究生的培养
个人分类: 未分类|15 次阅读|0 个评论
作物遗传育种学上的应用基础研究最佳模式:大规模和系统
lry198010 2009-9-30 11:43
今天,听了一个来自Exelixis(http://www.exelixis.com/about_history.shtml)高级科学家的报告,报告主要介绍了他们基于反向遗传学进行基因功能发掘系统的组成和应用。他们以这一套系统为基础,以拟南芥为分析对象,通过插入构建增强子、knock out ,超高量表达系统,对拟南芥的2万5千个基因都构建的突变体。以这些突变体为材料,挖掘了大量基因的功能。他们工作的高效,让我印象深刻。我觉得,要想做应用基础研究,不能急于求成,要把相应的基础建立好,比如说,做了一把芯片,就要发行成百上千的有用基因。应用基础研究应该是一项系统的工作,需要把各种方法有机综合起来一起进行。根据Exelixis的报告,对于生物学的应用基础研究来说(作物)应该包括: (1)高效的材料构建、获取、筛选方法和策略,只有这样,我们才能进行长期系统高效进行研究。研究材料的搜集包括:自然变异材料的搜集,这对国际上的大种子公司很有用。而对于一些新进入的公司则以创造材料为主。一句话来说就是:有材料要进行系统基础研究,没有材料就是创造材料也要进行系统的基础研究。 (2)成熟的性状分析系统,这些系统包括气象色谱、液相色谱仪等。以后性状的考察和筛选方向肯定是往细的方向发展,像目前所关注的株高、产量等将有可能被基于代谢组学的组分含量等性状所代替而成为主流。这里,我暂称之为新一代的性状考察技术。 (3)要有成熟的数据分析系统。这些系统包括数据的高效录入、高效管理和分析展现,更重要的是要有强大的数据整合能力。能把DNA水平的,转录组水平的,代谢组水平的,蛋白质组水平的,田间试验数据的,不同年份株系的表型数据等整合起来一起进行分析。 从技术的角度来说,做作物的应用基础研究应该有这三大成熟的技术: (1)高效的转基因技术,这样就可以对发掘的基因进行功能的验证等研究,把新发现的基因导入作物里从而成为有用的新育种材料 (2)高效的组培技术,才能在更短的时间里培养出符合要求的材料,这些材料不管是从转基因来的,还是通过杂交或融合而来的。 (3)高效的标记筛选技术,最好有robot进行全自动的基因标记筛选工作。
个人分类: 未分类|4636 次阅读|2 个评论
生物学知识水平在生物信息学的地位
lry198010 2009-9-26 22:40
生物学是生物信息学的基础,没有了生物学,也就无所谓生物信息学了。其实一个人的生物学的知识水平,决定了他/她在生物信息学所能取得的成就。要理解这样的观点,我们先从什么事生物信息学,生物信息学的目标开始谈起。 那么什么是生物信息学?目前,对什么是生物信息学,有不同的定义。
个人分类: 未分类|14 次阅读|0 个评论
国家生物医学信息中心搁浅十年!
热度 1 郝柏林 2009-6-10 03:48
         国家生物医学信息中心搁浅十年!    郝柏林    随着当代科学进入基因组时代,生物和医学成为产生数据量最大的科学技术领域。 在上个世纪80年代,美国、日本和联合起来的欧洲国家先后建立了国家级的生物信息中心。这三个中心实行合作,同步更新,但又各有特色。中国对数据库贡献甚少,无偿享用生物数据的情况很难保持长期稳定,国内也存在着自有数据共享的各种障碍,将来数据产量增大以后,更面临着全国性的服务协调。      1999年6月10日我写了一份院士建议,题为建议尽快组建国家级的生物医学信息中心(附件一),它后来又被国家自然科学基金委印发在一期简报上。9月27日李岚卿副总理在简报上做了批示。科技部组织了不止一个专家委员会、起草过招标指南,许多人忙碌了一番,事情也开始走样(附件二),继而搁浅。2000年9月19日我写信给科技部秘书长林泉,问国家生物医学信息中心筹建工作为何搁浅?希望在李岚卿副总理批示一年之际,有点实质性进展(附件三)。然而情况依旧。2003年1月1日我写信给科技部部长徐冠华,题目是国家生物信息中心筹建搁浅三年!(附件四)      我的原始建议曾经发表在《中国科学院院刊》2000年第15卷133-134页。中国科学院理论物理研究所还因为有建议受到中央领导批示而在评估中加过分。科技部把这件事放到农村和社会发展司就是一件怪事。科技部采取投标方式也并不符合实际情况。原建议说到1000万元投资就可以启动。起草投标指南时科技部的干部要求专家组把标底提到近亿元,后来又另组委员会提出两亿预算。国家生物信息中心这个重要项目终因我国科学技术领导体制问题, 论证过程中的非组织活动, 以及有关部门的利益争执而长期搁浅,致使我国在日益增长的生物数据方面长期依赖国外资源,而且日益边缘化于美日欧集团之外。      附件一:建议尽快组建国家生物医学信息中心(1999年6月10日)   附件二:1999年12月17日致科技部长朱丽兰信   附件三:2000年9月19日致科技部秘书长林泉信   附件四:2003年1月1日致科技部长徐冠华信    1999年12月17日致科技部长朱丽兰信 2000年9月19日致科技部秘书长林泉信 2003年1月1日致科技部长徐冠华信 建议尽快组建国家生物医学信息中心
个人分类: 科学史料|17383 次阅读|14 个评论
肿瘤系统生物学研究进展
zhengzhg 2009-3-30 17:36
摘要 人类基因组计划的启动与实施,大规模研究技术的发明与应用和生物信息学的发展深刻影响了当代生物学的研究模式。系统生物学已逐渐受到关注,它在肿瘤学领域的应用所形成的肿瘤系统生物学将对进一步理解肿瘤的发生、发展机制和对肿瘤的诊断、治疗产生深远的影响。 关键词 肿瘤;系统分析;生物信息学 当代生物学的发展,使人们有能力重新考虑用控制论、一般系统论、信息论等方法去理解生命现象,使系统生物学的研究成为可能。它在肿瘤学领域的应用所产生的肿瘤系统生物学使人们对于解决目前临床上面临的种种问题充满信心。 1 人类基因组计划完成的历史意义 自从人类基因组计划启动到2001年2月草图完成 ,2004年10月人类基因组完成图公布以来 ,对当代的生物医学产生了巨大的影响 , 直接导致了系统生物学和预测、预防及个体化医学的产生与发展。同时也改变了生物学家的思维与实践,首先使人们认识到生物学也是一门信息学,如DNA序列、蛋白质序列、蛋白质的三维结构等。其次高通量的定量技术得到了发展,如DNA测序、基因芯片、蛋白质组学技术等。再次,计算机技术、数学、统计等在生物信息领域中的应用得到了迅速的发展。还有对模式生物研究的深入使人类对于理解像人这样复杂的生物系统有了很大的帮助。总之,人类基因组计划的启动和实施使过去几十年来,主宰了生物学发展的,以克隆或发现生物反应中单个分子(如某一基因或蛋白质)为主导的分子生物学研究,将逐渐让位于以研究生物反应过程本身及揭示生物现象赖以存在和发展的基本原理的理论与实验相结合的系统生物学 。 2 系统生物学 2.1 系统生物学的概念和意义 系统生物学是研究一个生物系统中所有组成成分(基因、mRNA、蛋白质等)的构成,以及在特定条件下,这些组分间相互关系的学科。由生物体内各种分子的鉴别及其相互作用的研究到途径、网络、模块、最终完成整个生命活动的路线图。这需要一个世纪或更长时间,因而常把系统生物学称为21世纪的生物学。 整合效应是系统生物学的灵魂,它包括对系统各种构成要素,如基因、mRNA、蛋白质、生物小分子等和研究思路及方法的整合。作为系统生物学的创始人之一,Hood 曾指出系统生物学将是21世纪医学和生物学的核心驱动力。Kitano 等人也提倡系统生物学的发展,认为可以从系统水平的四个方面来理解生物系统,如系统结构,系统动态变化,控制方法和设计方法。2002年3月,美国《科学》刊登了系统生物学专集,该专集导论中的一句话写道:如果对当前流行的,时髦的关键词进行一番分析,那么人们会发现系统高居在排行榜上。美国、日本等国都很重视这一领域的发展,都认为系统生物学的发展将在理论生物学、医学、药物开发等方面产生深刻影响 。国内也引起了对系统生物学的关注,如2003年12月在中科院成立了第一个系统生物学研究所。 2.2 系统生物学的研究内容、技术平台和应用 系统生物学主要研究如何使现有的数据一体化,如何获得准确定量、动态的数据,及对数据的管理、分析与模型构建,模型的验证与应用等, 需要实验技术的创新和实验方法的改进。获取定量、动态的数据尤其重要 。如系统生物学杂志声称将刊登那些应用计算机和数学模型去分析、模拟细胞内的网络、相互作用和途径的优秀文章。Hood于2000年1月创建了世界上第一所系统生物学研究所,其目标有两个:用系统的方法研究生物和预测、预防及个体化的医学。它的主要技术平台为基因组学、转录组学、蛋白质组学、代谢组学、相互作用组学和表型组学等,其中生物信息学将起着重要作用。目前系统生物学已成功的应用于几种生物系统如细菌 ,酵母 等研究。 3 肿瘤系统生物学 3.1 肿瘤的危害和当前面临的问题 肿瘤已成为当代人类最主要的杀手。除身体病痛外,肿瘤对患者造成的巨大心里和精神创伤是其它慢性疾病所不能比拟的。肿瘤的医疗费用和资源消耗亦已成为社会沉重的负担。因此,攻克肿瘤不仅是医学界的重大课题,而且也被各国政府所关注,为此投入了大量人财物力。随着细胞分子生物学等理论技术在肿瘤生物学领域的应用,对肿瘤的认识和研究及肿瘤的诊断和治疗产生了巨大的影响。但是还有很多问题需要解决,如肿瘤的形成与发展机制尚不明确,肿瘤的早期诊断困难重重,还有耐药性、副作用等问题。 3.2 肿瘤系统生物学的概念、意义及应用 随着人类基因组计划的启动与进展,基因芯片、蛋白质组学等技术的兴起与应用及生物信息学的发展,重新燃起了人们整体理解生命的希望,把我们带入了系统生物学时代。肿瘤系统生物学就是应用系统生物学的研究方法和手段将肿瘤研究与临床实际密切结合。目前肿瘤系统生物学还处于起步阶段,它将是人们今后普遍关注的焦点,这一领域的深入研究将对进一步理解肿瘤的发生、发展机制及对肿瘤的早期诊断、预防和个体化治疗等方面产生积极的影响。所以人们对肿瘤系统生物学寄予很大希望,想在今后几十年里通过各国科学家在这一领域的共同努力使我们不至于谈癌色变。在美国系统生物学研究所,其中重要的研究内容之一就是肿瘤系统生物学,他们希望通过研究能准确的确定肿瘤类别和发展阶段,不同肿瘤的遗传和环境相互作用关系,以达到早期诊断和个体化治疗的目标, 已经在前列腺癌等方面作了研究 ,为了构建系统生物学网络模型,他们首先用并联平行的标记测序技术(multiple parallel signature sequencing)建立了mRNA表达差异数据库,通过与正常组织比较找到了300个前列腺癌特异基因,其中60%带有信号肽,从中选出一些候选蛋白成功的用于区别早期和晚期的前列腺癌 。为了达到对乳腺癌的早期诊断和有效治疗,丹麦启动了一项长期的计划,希望整合来自基因组、蛋白质组和功能基因组等方面的知识并通过系统生物学的方法来完成使命 。在过去的几年里,蛋白相互作用和蛋白质表达定量等研究促进了机器动态模拟和数据挖掘的研究,如机器模拟表皮生长因子受体(EGFR)途径使人们对表达EGFR的癌认识又进了一步 。Oh 等人用亚蛋白质组学和生物信息学等方法发现了与癌组织内皮细胞特异性的蛋白,如氨基肽酶(aminopeptidase-P)和膜联蛋白(annexin A1)可以分别作为肺癌和实体肿瘤的特异抗体并有望用于治疗。 3.3 对我国肿瘤系统生物学研究的建议 我国在肿瘤研究领域有较好的基础,关于今后肿瘤系统生物学的研究策略,愿在此抛砖引玉,提出我们初浅的建议,以便于相关的科学家加强合作,共同努力,使我国肿瘤系统生物学研究能够走在世界前列: 3.3 .1. 建立肿瘤系统生物学数据库:随着基因组学的发展及后基因组时代的到来,各种生物数据爆炸式增长,这需要我们创造性的发展生物信息学建立一体化数据库 。并努力应用于临床,使这个数据库真正成为临床医生的得力助手,成为研究人员的交流平台。 3.3 .2. 建立相关实验技术平台:肿瘤系统生物学是一个新的领域,研究方法需要创新,新的技术急需开发。另外,现代生物学对仪器有很大的依赖性,肿瘤系统生物学需要立体了解相关情况,更需要实验技术平台的建立与创新,如遗传背景的检测技术、基因组分析技术、基因芯片技术、蛋白质组分析技术、分子成像技术、动态检测技术等。 3.3 .3 加强对数据的解析和模型构建:重视相关模式生物的研究,加强对不同技术平台中得到的数据的解析和模型构建,充分发挥生物信息学的作用。系统生物学的理想就是要得到一个尽可能接近真正生物系统的理论模型,建模过程贯穿在系统生物学研究的每一个阶段,需要实验研究和计算机模拟及理论分析的完美整合。目前这方面还面临着很大的挑战性 ,也取得了一定的进展,如系统生物学标记语言(systems biology markup language)的开发 ,系统生物学软件和数据库的开发 ,新的数学方法的应用等 。 3.3 .4加强科研人员与临床医生的紧密合作:科学家希望通过肿瘤系统生物学的研究来解决目前临床上面临的问题,这需要科研人员与临床医生的紧密合作,更应结合循证医学,问题来自于临床并与临床资料紧密结合,再把研究成果应用于临床,以推进目前对肿瘤的诊断和治疗水平。最近,麻省理工学院(MIT)、哈佛(Harvard)与博大(Broad)基金合作建立一个耗资一亿美元的有临床医生参加的研究中心博大研究院(The Broad Institute),其目的是推动系统生物学的研究并与临床应用相结合。 3.3 .5肿瘤资源库建立与分析:肿瘤资源库是研究的基础,为研究及时提供材料,应有目的、系统地收集和保存常见肿瘤的组织标本和血液标本等。一方面研究标本的保存技术,另一方面结合完整的临床资料加强对资源库的整理分析,实现资源的有效利用。 3.3 .6加强交流与合作,搞好教育与培训:系统生物学还是典型的多学科交叉研究,他需要生命科学、信息科学、数学、计算机科学、化学、工程学、物理学等各种学科的共同参与。还需要患者、护士、医生、政府、保险公司等合作,为了更好的合作需要开发大家都可理解的语言。 3.3 .7加大科研投入: 肿瘤系统生物学研究是一项长期的计划,因而需要大量的资金投入来保证。美国在肿瘤系统生物学方面投入了大量资金,如美国癌症研究所(NCI)提供2350万美元支持华盛顿大学,西雅图佛瑞德.赫钦森(Fred Hutchinson)癌症研究中心(FHcrc)和系统生物学研究所去研究前列腺癌。呼吁国家和地方投入急需的研究资金。 4结语   系统论、控制论早已成功的应用于工程学,在生物学领域也早有尝试。生物学发展到今天将使系统生物学的研究成为可能,而肿瘤是一个非常复杂的生物系统,因而肿瘤系统生物学呼之欲出。世界各国都非常重视对这一领域的研究,预计将很快成为热点领域,将在攻克癌症的征途上产生深刻的影响。  参考文献 1 Lander ES, Linton LM, Birren B, et al. Initial sequencing and analysis of the human genome. Nature, 2001, 409 (6822): 860-921. PMID: 11237011 2 Venter JC, Adams MD, Myers EW, et al. The sequence of the human genome. Science, 2001, 291 (5507): 1304-1351. PMID: 11181995 3 Collins FS, Lander ES, Rogers J, et al. Finishing the euchromatic sequence of the human genome. Nature, 2004, 431 (7011): 931-945. PMID: 15496913 4 Collins FS, Morgan M, Patrinos A. The human genome project: lessons from large-scale biology. Science, 2003, 300 (5617): 286-290. PMID: 12690187 5 Bentley DR. Genome for medicine. Nature, 2004, 429 (6990): 440-445. PMID: 15164068 6 Austin CP. The impact of the completed human genome sequence on the development of novel therapeutics for human disease. Annu Rev Med, 2004, 55: 1-13. PMID: 14746506 7 Westerhoff HV, Palsson BO. The evolution of molecular biology into systems biology. Nat Biotechnol, 2004, 22 (10): 1249-1252. PMID: 15470464 8 Hood L. A personal view of molecular technology and how it has changed biology. J Proteome Res, 2002, 1 (5): 399-409. PMID: 12645911 9 Kitano H. Systems biology: a brief overview. Science, 2002, 295 (5560): 16621664. PMID: 11872829 10 Weston AD, Hood L. Systems biology, proteomics, and the future of health care: toward predictive, preventative, and personalized medicine. J Proteome Res, 2004, 3 (2): 179-196. PMID: 15113093 11 Bugrim A, Nikolskaya T, Nikolsky Y. Early prediction of drug metabolism and toxicity: systems biology approach and modeling. Drug Discov Today, 2004, 9 (3): 127-135. PMID: 14960390 12 Drews J. Drug discovery: a historical perspective. Science, 2000, 287 (5460): 19601964. PMID: 10720314 13 Zhu H, Huang S, Dhar P. The next step in systems biology: simulating the temporospatial dynamics of molecular network. Bioessays, 2004, 26 (1): 68-72. PMID: 14696042 14 Covert MW, Knight EM, Reed JL, et al. Integrating high-throughout and computational data elucidates bacterial networks. Nature, 2004, 429 (6987): 92-96. PMID: 15129285 15 Mori H. From the sequence to cell modeling: comprehensive functional genomics in Escherichia coli. J Biochem Mol Biol, 2004, 37 (1): 83-92. PMID: 14761306 16 Stelling J, Gilles ED. Mathematical modeling of complex regulatory networks. IEEE Trans Nanobioscience, 2004, 3 (3): 172-179. PMID: 15473069 17 Castrillo JI, Oliver SG. Yeast as a touchstone in post-genomic research: strategies for integrative analysis in functional genomics. J Biochem Mol Biol, 2004, 37 (1): 93-106. PMID: 14761307 18 Hood L, Heath JR, Phelps ME, et al. Systems biology and new technologies enable predictive and preventative medicine. Science, 2004, 306 (5696): 640-643. PMID: 15499008 19 Halvorsen OJ, Oyan AM, Bo TH, et al. Gene expression profiles in prostate cancer: association with patient subgroups and tumour differentiation. Int J Oncol, 2005, 26 (2): 329-336. PMID: 15645116 20 Celis JE, Moreira JM, Gromova I, et al. Towards discovery-driven translational research in breast cancer. FEBS J, 2005, 272 (1): 2-15. PMID: 15634327 21 Khalil IG, Hill C. Systems biology for cancer. Curr Opin Oncol, 2005, 17 (1): 44-48. PMID: 15608512 22 Oh P, Li Y, Yu J, et al. Subtractive proteomic mapping of the endothelial surface in lung and solid tumours for tissue-specific therapy. Nature, 2004, 429 (6992): 629-635. PMID: 15190345 23 Goesmann A, Linke B, Rupp O, et al. Building a bridge for the integration of heterogeneous data from functional genomics into a platform for systems biology. Journal Biotechnol, 2003, 106 (2-3): 157-167. PMID: 14651858 24 Dhar PK, Zhu H, Mishra SK. Computational approach to systems biology: from fraction to integration and beyond. IEEE Trans Nanobioscience, 2004, 3 (3): 144-152. PMID: 15473066 25 Finney A, Hucka M. Systems biology markup language: level 2 and beyong. Biochem Soc Trans, 2003, 31 (pt 6): 1472-1473. PMID: 14641091 26 Dhar P, Meng TC, Somani S, et al. Cellware-- a multi-algorithmic software for computational systems biology. Bioinformatics, 2004, 20 (8): 1319-1321. PMID: 14871872 27 Steinhauser D, Usadel B, Luedemann A, et al. CSB.DB: a comprehensive systems-biology database. Bioinformatics, 2004, 20 (18): 3647-3651. PMID: 15247097 28 Priami C, Quaglia P. Modelling the dynamics of biosystems. Brief Bioinform, 2004, 5 (3): 259-269. PMID: 15383212
个人分类: 研究成果|7358 次阅读|0 个评论
通过矩阵分解从生物医学文献中抽取未知的基因关系(翻译文摘)
zilu85 2008-10-16 21:55
背景 构建出基于医学文献的基因相互作用网络是文本挖掘在生物信息学中最为重要的应用。从生物医学文献中抽取潜在的基因关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。最近,基于奇异值分解(singular value decomposition)的潜在语义标引(latent semantic indexing)已经应用于基因检索上。然而,用于降低秩矩阵的因子K的取值仍然是一个悬而未解的问题。 结果 本文介绍了一种将基因关系的先验知识加入到LSI/SVD中来确定因子数的方法。我们还探讨了利用非负矩阵因子分解(non-negative matrix factorization NMF)通过利用已知的基因关系从生物医学文献中抽取未能识别的基因关系。基于NMF和LSI/SVD的基因检索方法现实出较好的性能。 结论 使用某个特定基因的已知的基因关系,我们确定了用于减少矩阵秩的因子数,并且采用LSI/SVD或者GR/NMF方法检索到与该基因相关的未识别的基因。
个人分类: 生物医学文本挖掘|4887 次阅读|0 个评论
GEO:基因表达大棚车(Gene Expression Omnibus)
热度 2 zilu85 2008-10-12 08:27
GEO Database 近年来,利用高通量方法检测基因表达越来越普及,诸如微阵列杂交和基因表系列分析( SAGE )可以同时测量数以万计的基因转录脚本( gene transcript )。基因表达大棚车( GEO : Gene Expression Omnibus )则是归档和自由分发科研人员提交的高通量基因表达数据的公共仓库。目前, GEO 存储了大约 10 亿单个基因表达的数据,来自于 100 多种生物,内容广泛涉及到各种生物学问题。这些大容量的数据可以使用用户友好的以 Web 为基础的工具进行有效的挖掘,检索和可视化表达。 GEO 的网址是 www.ncbi.nih.gov/geo 。 结构 提交者提供的基因表达数据包括四个部分: 平台:描述阵列的特性。例如, cDNA ,寡聚核苷酸等等。 样本:描述处理样本的生物学材料和实验条件,以及从中衍生的各种特点的大量检测。 系列:定义被认为是一个实验的部分内容的一组相关样品。 补充数据:原始微阵列扫描图或者粗糙的定量数据。 样本数据被组装到具有生物学意义并且可以比较的 GEO 数据集。数据集的记录提供关于实验的综合性的纲要,以此作为 GEO 数据表现和分析工具的基础。 数据挖掘 GEO 中的数据可以通过两个 NCBI 的 Entrez 数据库查询: Entrez GEO - DataSets : 从实验的角度组织 GEO 中的数据。感兴趣的实验可以通过查询属性(如自由文本的关键词,技术类型,作者,生物和实验变量信息)检索到,找到相关 DataSet 后,就可以利用在 DataSet 记录上的补充工具,进一步查找该实验中感兴趣的基因表达图谱。可以通过: www.ncbi.nih.gov/entrez/query.fcgi?db=gds 登录。 GDS 记录中可以使用的工具有 : l 聚类热图: 可选择系统聚类和 K-means 聚类算法,对于感兴趣的类别可以选定、扩大、下载、 plotted as line charts 或者将其直接链接到 Entrez GEO-Profiles 。 l 两个查询结果的比较: 该工具帮助找到在同一个 DataSet 中两个特定样本集之间标记出表达水平有差异的基因,差异计算采用 T 检验或者 fold difference 。符合用户定义标准的基因在 Entrez GEO-Profiles 中表达。 l 作用检索: 检索到所有标记为对特定实验变量(如年龄或者株)有显著作用的图谱。 Entrez GEO - Profiles : 从基因的角度组织 GEO 中的数据,可以通过检索诸如基因名称, GenBank 登录号, SAGE 标签, GEO 登录号,描述或者一些被标注上对特定的实验变量具有重要作用的图谱等属性,找到感兴趣的基因表达图谱( gene expression profile )。 Entrez GEO - Profiles 可以通过: www.ncbi.nih.gov/entrez/query.fcgi?db=geo 登录。 在 Entrez GEO-Profiles 结果页面上可以使用的工具有 : l 图谱邻居: 返回在给定的 DataSet 中显示相似表达模式的一系列基因。 l 序列邻居: 检索通过 BLAST 计算出来的在核酸序列上相似的相关图谱。 l 同源邻居: 检索属于相同同源基因组( HomoloGene )的基因图谱。 l 链接: 链接到其他 NCBI Entrez 数据库,包括: GenBank 、 PubMed 、 Gene 、 UniGene 、 OMIM 、 Homologene 、 Taxonomy 、 SAGEMap 、 Mapviewer 。
个人分类: 生物信息学|30402 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 21:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部