科学网

 找回密码
  注册

tag 标签: 计算生物学

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

《Science》: 计算生物学系列综述
热度 4 jzlei 2012-5-27 23:13
《Science》: 计算生物学系列综述
《科学》-- 2012年 336 卷出版了关于计算生物学的系列综述文章,可以说是对计算生物学的肯定和未来发展的一些趋势。该专刊的网页是: http://www.sciencemag.org/content/336/6078.toc 这四篇文章分别是: A. Mogilner et al. Cell Polarity: Quantitative Modeling as a Tool in Cell Biology (细胞极性:定量模型作为细胞生物学的工具) D.R. Zerbin et al. Integraing Genomes (整合基因组) B.Munsky et al. Using Gene Expression NOise to Understand Gene Regulation (用基因表达噪声理解基因调控) L.G. Morelli et al. Computational Approaches to Developmental Pattering (用计算研究发育模式) 四篇文章包括了定量模型的建立,生物信息学,随机性的重要性和应用,计算与其在发育生物学中的应用,值得从事计算生物学、系统生物学、合成生物学、生物信息学、生物数学等学科人士的参考。 中国在计算生物学(或者系统生物学)领域的研究已经大大落后于国际,希望《科学》杂志的综述能引起国内学者对这一研究方向的关注。 计算生物学的研究之重点不是在计算,而是在定量模型的建立。计算是技术问题,但是如果不知道需要算什么,技术再好有能何如呢?只有对生物问题的合理定量化和模型的建立,才知道要算什么,才能很好地回答生物学问题。而为了建立好的数学模型,只有数学物理知识或者只有生物学知识是不够的。必须要生物学和定量科学学科之间的合作,只有这样才可能准确地提出生物学的问题,并且很好地把生物学问题转化成定量的计算(或者分析)问题。 我个人对计算生物学(或者系统生物学)的看法是:以定量的方法去研究生命科学问题。 学科之间的密切合作是做好计算生物学的基础。但是在国内因为种种制度上限制(经费申请,成果申报,项目经费分配等等),还有观念上的限制(一般比较喜欢在自己熟悉的领域进行工作,而对不太熟悉的领域不敢涉足)等原因,真正的合作并不容易实现。
17457 次阅读|9 个评论
[转载]写好英语(中文)科技论文的诀窍(转载周耀旗教授文)
hgiap 2012-5-17 21:34
写好英语(中文)科技论文的诀窍(转载周耀旗教授文) 下面这是个从网上转载的文章,希望能被更多的人看到。文中有几处乱码的地方,搞不清楚原文是什么,但还是能猜一下,我用 ... 标识那里原来是有乱码的位置。如果谁认为我转载侵犯了版权啥的,请给我发email。 写好英语(中文)科技论文的诀窍(转载周耀旗教授文) (按:此文由周耀旗教授撰写。现部分转载如下。由于格式关系,不能转载图表。请点击mentor100.com看原文。虽然文章是关于英文写作的,很多原则和技巧也适合中文的科技文章写作。) 写好英语科技论文的诀窍: 主动迎合读者期望,预先回答专家可能质疑 周耀旗 印地安那大学信息学院 印地安那大学医学院计算生物学和生物信息中心 以此文献给母校中国科技大学五十周年校庆 我的第一篇英语科技论文写作是把在科大的学士毕业论文翻译成英文。当我一九九零年从纽约州立大学博士毕业时,发表了20多篇英语论文。但是,我对怎样写高质量科技论文的理解仍旧处于初级阶段,仅知道尽量减少语法错误。之所以如此,是因为大多数时间我都欣然接受我的博士指导老师Dr. George Stell和 Dr. Harold Friedman的修改,而不知道为什么要那样改,也没有主动去问。这种情况一直持续到我去北卡州立大学做博士后。我的博士后指导老师Dr. Carol Hall建议我到邻近的杜克大学去参加一个为期两天的写作短训班。这堂由Gopen 教授主办的短训班真使我茅塞顿开。第一次,我知道了读者在阅读中有他们的期望,要想写好科技论文,最有效方法是要迎合他们的期望。这堂写作课帮我成功地完成了我的第一个博...后基金申请,有机会进入哈佛大学Dr. Martin Karplus组。在哈佛大学的五年期间,在Karplus教授的指导下,我认识到一篇好的论文需要从深度广度进行里里外外自我审查。目前,我自己当了教授,有了自己的科研组,也常常审稿。我觉得有必要让我的博士生和博士后学好写作。我不认为我自己是写作专家。我的论文也常常因为这样或那样的原因被退稿。但是我认为和大家共享我对写作的理解和我写作的经验教训,也许大家会少走一些我走过的弯路。由于多年未用中文写作,请大家多多指正。来信请寄: yqzhou@iupui.edu 。 欢迎访问我的网站: http://sparks.inxxxxatics.iupui.edu 。 导言 通常来讲,研究生和博士后从他的导师那儿得到研究方向。经过多次反复试验,得到一些好的结果。接下来他们需要对得到的数据进行总结和分析,写成论文。一篇精写的论文更容易被高档杂志接受。而写得不好的论文很可能被退稿。论文的数量和质量是学生和导师事业发展的敲门砖。不成文,便成仁,是学术生涯的写照。 很多学生以为当结果到手的时候研究就结束了。他们写的草稿,常常把原始数据放在一起,没有对方法和数据进行详细分析,没有对当今论文的评述。事实上,写作是研究不可分割的一部分。此刻是弄懂方法的成功与失败,寻找结果的解释及其隐含的意义,以及与其他相关研究进行比较的时候。 我们为什么需要在写作上如此认真努力?原因很简单。一个研究结果只有在被别人使用时才有意义。而想被别人使用,文章必须能引起其他科学家的兴趣,而且得保证其他人能看懂并可以重复和再现你的结果。只有可以被理解的研究才会被重复,也只有可以被再现的工作才能导致别人的引用和跟踪。而你的论文被引用的数量常常用来衡量研究的影响力。从某种角度看,写作就象是把你的工作成果推销给其他的科学家。 为了更好的推销,科学论文必须满足它独特的顾客:由聪明能干的科学家组成的尖端读者。它必须能先说服(通常也是竞争对手的)同行们,因为他们的评审是文章在发表前的第一道关口。同时,它也必须满足一般读者的要求。为了达到这个目标,我们首先要理解他们需要什么? 读者需要什么 你的文章的潜在读者可能有刚进入这领域的新手,大学生和研究生,也有专家(潜在审稿人),他们对你的领域会有不同程度的了解。因此,写文章的时候应该力求简单到可以被新手理解,同时深刻到可以引起专家的兴趣。 所有的科学家(不论是学生还是他们的导师)往往都很忙。大量期刊杂志使他们不可能仔细阅读每一篇论文。他们通常希望能在最短时间内找到文章最重要的信息。典型的情况是如果文章标题不吸引人,他们或许就会跳过这篇论文,如果文章的摘要没有包含重要的新方法或新结果,他们不会去读这篇文章。即使已经决定要读的论文,他们也会跳过很多段落直接去找自己最感兴趣的地方。因此,保证文章的结构能使读者很快找到所需的信息非常重要。文章的关键在于结构,不在于语法。语法错误易改,结构错误则往往让人无从下手,不知所云。我审过一些国内同行的论文,结构问题很常见。 总之,一篇文章只有在不需太多努力就可以理解的情况下才会被广泛地引用。文章清晰的关键就是使读者能在他们想找的地方找到他们需要的东西。这也就是说,要想让读者不费力理解你的论文,你必须费力去满足他们的期望. 读者期望什么 读者对句子的期望 读者希望在句子的开始看到熟悉的信息。句子是文章的最小功能单元。最容 易理解的句子是整句都在说读者知道的东西。但这对科技论文是不可能的, 因为只有新的东西才会被发表。事实上科技论文通常会包含很多新术语。所 以一个容易理解的句子应该从读者熟悉的信息(或刚刚提过的)开始而以新 信息结束,并在它们之间平滑地过渡。好文章的所有句子都应该这样从旧到 新地平滑过渡。帮助你写好一句开头的金科玉律是问问你自己:“我以前有 没有提过这个概念?”大多数文章很难读是因为很多新概念在没有被介绍之 前就使用了。例如: Samples for 2-dimensional projection of kinetic trajectories are shown in Figure 7. The coil states are loosely gathered while the native xstates can xxxx a black cluster with extreme high density in 2-dimensional projection plane. 这里从第一句到第二句信息无法流动。“The coil states”不知道是从何而来的。读者会发现下面改动后的句子更容易明白。 Kinetic trajectories are projected onto xx and yy variables in Figure 7. This figure shows two populated states. One corresponds to loosely gathered coil states while the other is the native state with a high density. 在这个新段里,新插入的第二句使每句均能从旧信息出发到新信息结束。第一句与第二句之间以“Figure”相连而第二句与第三句之间以“two states”相连。而新信息“coil states”则出现在第三句的最后。整段环环相连,成为一个整体。再看一个例子: The accuracy of the model structures is given by TM-score. In case of a perfect match to experimental structure, TM-score would be. 在第二个句子里,旧信息“TM-score”被埋在中间,被新信息“a perfect match to experimental structure”打断了。这里建议修改如下: The accuracy of the model structures is measured by TM-score, which is equal to 1 if there is a perfect match to the experimental structure. 科技写作中的最大问题就是新旧信息顺序颠倒。新信息和旧信息对作者来说可能不是很好区分,因为他非常熟悉所有的信息。 为了避免这种问题,不管什么时候,每当你开始写新句,你应该问问自己,这些词前面有没有被提到过。一定要把提到过的放前面,没提过的放后面。 读者想在主语之后立刻看到行为动词。对一个说明谁在做什么的句子,读者 需要找到动词才能理解。如果动词和主语之间相隔太远,阅读就会被寻找动词 打断。而打断阅读就会使句子难以理解。这里有个例子: The smallest URFs (URFA6L), a 207-nucleotide (nt) reading frame overlapping out of phase the NH2-terminal portion of the adenosinetrip hosphatase (ATPase) subinit 6 gene has been identified as the animal equivalent of the recently discovered yeast H+-ATPase subunit 8 gene. 同样的句子,将动词放在主语之后: The smallest of the URFs is URFA6L, a 207-nucleotide (nt) reading frame overlapping out of phase the NH2-terminal portion of the adenosinetriphosphatase (ATPase) subinit 6 Gene; it has been identified as the animal equivalent of the recently discovered yeast H+-ATPase subunit 8 gene. 这样新的句子就更加平衡了。尽量避免过长的主语和过短的宾语。这就像头重脚轻的人很难站稳。短的主语紧跟着动词加上长的宾语效果会更好。 读者期望每句只有一个重点,这个重点通常在句尾。比较下面两个句子,我 们可以感觉到他们着重强调不同的东西。 URFA6L has been identified as the animal equivalent of the recently discovered yeast H+-ATPasesubunit 8 gene. Recently discovered yeast H+-ATPase subunit 8 gene has a corresponding animal equivalent gene URFA6L. 很明显,前面的句子是关于一个最近发现的酵母基因,而第二句则着重强调了它有一个和动物一致的基因。另外一个例子: The enthalpy of hydrogen bond xxxxation between the nucleoside bases 2-deoxyguanosine (dG) and 2-deoxycytidine (dC) has been determined by direct measurement. 这个句...看起来好像是...强调“direct measurement”。 这不太像是原作者的目的。颠倒一下会使句子更加平衡。 We have directly measured the enthalpy of hydrogen bond xxxxation between the nucleoside bases 2-deoxyguanosine (dG) and 2-deoxycytidine (dC). 新的句子更简单而且更短,同时避免了头重脚轻的症状。总之,句尾是读者对该句最后的印象。把最好的,最重要的,和想要读者记住的东西放在句尾。 读者对段落的期望 每一个段落都应该只讲一个故事。在一段里表述多个观点会使读者很难知道该记住什么、这段想表达什么。一段的第一句要告诉读者这一段是讲什么的。这样读者想跳过这段就可以跳过。一段的最后一句应该是这段的结论或者告诉读者下一段是什么。段落中的句子应该由始到终通过逻辑关系连接,实现由旧信息到新信息的流动。比如这一段: The enthalpy of hydrogen bond xxxxation between the nucleoside bases 2-deoxyguanosine (dG) and 2-deoxycytidine (dC) has been determined by direct measurement. dG and dC were derivatized at the 5 and 3 hydroxyls with triisopropylsilyl groups to obtain solubility of the nucleosides in non-aqueous solvents and to prevent the ribose hydroxyls from xxxxing hydrogen bonds. From isoperibolic titration measurements, the enthalpy of dC:dG base pair xxxxation is -6.650.32 kcal/mol. 很难知道作者在这段里想表达什么。从这段的起始和结束看来,焓(enthalpy)应该是他想表达的重点。下面是重新组合后的段落。 We have directly measured the enthalpy of hydrogen bond xxxxation between the nucleoside bases 2-deoxyguanosine (dG) and 2-deoxycytidine (dC). dG and dC were derivatized at the 5 and 3 hydroxyls with triisopropylsilyl groups; these groups serve both to solubilize the nucleosides in non-aqueous solvents and to prevent the ribose hydroxyls from xxxxing hydrogen bonds. The enthalpy of dC:dG base pair xxxxation is -6.650.32 kcal/mol according to isoperibolic titration measurements, 首句描述了整段的主题。原段里的第一句颠倒是为了 1) 使新信息“dG”和“dC”在句子最后并强调他们。 2)更好地跟下面一句衔接。 原段里的第二句被分成两部分,这样每一部分只表达了一个观点。最后一句时总结整段。 再看另一个例子: Large earthquakes along a given fault segment do not occur at random intervals because it takes time to accumulate the strain energy for the rupture. The rates at which tectonic plates move and accumulate strain at their boundaries are approximately unixxxx. Therefore, in first approximation, one may expect that large ruptures of the same fault segment will occur at approximately constant time intervals. If subsequent main shocks have different amounts of slip across the fault, then the recurrence time may vary, and the basic idea of periodic main shocks must be modified. 在这个例子里,前两句共同阐明了积累张力的速度(Rate Of Strain Accumulation)。然而,第一句里的旧信息并没有放在第二句的开始。读者读到第三句的时候通常就不明白这段到底要讲什么了。更清晰的描述应该如下: Large earthquakes along a given fault segment do not occur at random intervals because it takes time to accumulate the strain energy for the rupture. The rates of strain accumulation at the boundaries of tectonic plates are approximately unixxxx. Therefore, nearly constant time intervals (at first approximation) would be expected between large ruptures of the same fault segment. , the recurrence time may vary; the basic idea of periodic main shocks may need to be modified if subsequent main shocks have different amounts of slip across the fault. 新段现在着重阐明了地震的发生频率。下划线标明了以前描述过的旧信息。很明显,新旧信息的连接是理解这段的关键。从旧信息到新信息的流动是使读者轻松阅读的最佳方式。写文章的目的不是去测试读者的阅读能力,而是考验作者的表达能力。不能怪人没看懂,只能怪自己没写清楚。常常听到这样的抱怨:那审稿人连这都不懂! 审稿人也可以说:连这个也写不清楚。 读者对表格和图示的期望一些没有耐心的读者会直接通过图表来判断一篇文章是否值得一读。怎样能使读者不需读正文就能理解图表是至关重要的。对于表来说,由于我们是从左向右阅读的,我们熟悉的信息应该出现在左边而新的信息出现在右边。例如,下面列出的表1和表2是仅仅调换了两列。比较一下那个表格更易理解。 (请点击见原文)原文此处应有一个链接的 审稿人要什么? 文章在发表前必须经过审稿人的评审。他们一般是相关领域的专家甚至是你的竞争者。他们会尽力寻找你文章中的毛病。有时,由于不同的观点和竞争的需要,审稿人或许会试图阻止你的文章发表。因此,文章必须写得理由充足。在被别人挑剔之前,自己必须首先鸡蛋里挑骨头,预先回答审稿人的可能质疑。 怎样满足审稿人? 1). 只提出“一”个中心命题。论文里的观点太多,不但不好写,问题也容易多, 读者也不易记住你要说什么。 2). 在这个中心命题的基础上,用一个迷人(但决不能夸张)的标题来吸引审稿人 的兴趣。审稿人只审批感兴趣的论文。如果你不能引起审稿人的兴趣,那最好 不要发表那篇文章。编辑们有时候会很郁闷,因为找不到有兴趣的审稿人。无 偿审稿也只有科学界才有。 3). 合理解释每一个参数,合理说明每一个步骤。审稿人没时间考虑细节。程序 和参数的合理化显示出你知道你在做什么,而不是凑数据。即使你是在凑数据, 也要把凑数据的过程合理化。 4). 问问你自己是否提供了足够重复你工作的所有细节。审稿人(或读者)越容易 再现你的工作,他就越可能接受你的文章。当然,审稿人并不会真正去重做你 的工作,但你必须通过你的描述使他相信可以重做。 5). 必须有说服力!尽量做彻底而不是半成品的工作!用多方面测试来证明你的 中心命题。要使文章象律师证明无罪官司,预先回答一切可能提出的疑问。 6). 引用所有重要的研究工作,特别是经典力作。写作的时候要再做全面文献检 索。为了达到这些目标,写科学论文的时候必须遵照一定的框架结构。 文章的结构 典型的科学论文包括标题,摘要,引言,方法/实验步骤,结果,讨论,感谢,和参考文献。这样的结构是用来帮助读者快速找到他们感兴趣的信息。把信息放错地方会使读者糊涂。常犯的错误是混淆事实(结果)和解释(讨论)。讨论是对结果的解释及说明它的意义,而不是重复结果的描述。 一篇论文是从摘要,引言开始,这里建议从方法和结果部分开始写,因为你对方法和结果最熟悉,此外只有更好地理解方法和结果,才能确定中心命题。而标题,引言和讨论的写作都需要中心命题。我们应该从最熟悉的事情开始,就像读者从他们最熟悉的地方开始理解一样。 方法/实验步骤 如果文章是关于新的方法,技术,或算法,要非常详细地写它的新颖之处。要用有逻辑的、合理的方式来描述它。这会帮助读者抓住新方法的要领。如果这个方法使用参数,则要把每一个参数(或参数的取值)合理化,或者是以前用过的,或者可以从物理或数学推导出来,或者通过了广泛的测试及优化。如果无法保证它的合理性,那就必须描述改变它会造成的影响(实际的结果应该在结果部分或讨论部分,方法部分仅包含影响的描述)。如果没有测试它们的合理性,你应该解释为什么 (做的代价太贵了?太费时间了?或者需要延期到将来做)。参数改变造成的影响可以衡量方法是否Robust。 Robust的方法应该是在参数改变很大的时候,结果也不会太大变化。 对于新方法的发展,你同样需要设计不同的方法来测试。让人信服就需要做尽可能多的测试。你所能找到或设计的测试越多,你的工作就越会被其他人所接受和使用。 当完成了方法部分以后,问一问自己以下的问题:1)新的术语是不是都定义了? 2)如果你是第一次读这部分,你能否得到重复整个工作的所有信息?记住,不要隐藏任何窍门或使用的捷径。人们如果不能重复你的结果的话就不会相信你的论文。永远不要弄虚作假!别人不是傻子。一山更比一山高。聪明的大有人在。如果你伪造数据,心存侥幸不会被人发现。如果真的没人发现的话,那就是没有任何人想重复或使用你的结果,那只能说明你的结果根本不值得发表,毫无意义。若要人不知,除非己莫为,这是千真万确的真理。 结果部分 当你开始写结果部分时,先考虑一下结果的意义。也就是说,你理解你的结果吗?这些结果是不是告诉了你更深刻的东西?你能从很多不同角度来理解结果吗?你能设计证明或者反驳你的一些解释的新测试吗? 如果你发现了新现象,你必须证明你的结果不是你方法制造出来的(讨论部分的一个好内容)。它可以在不同的条件下重复吗?如果你发展了一个新方法,你必须证明这个方法的重要性。它是否改进了现有的方法?你的结果部分必须用不同的角度或多重测试来支持新发现或验证新方法的重要性。 一旦你对结果有更好的理解,你需要决定卖点,也就是说这篇文章最有意义的一个观点是什么?确定这篇文章的中心命题之后要组织所有的段落来证明、支持它,用数据(有必要的话再加数据)来证明它。同时也要排除其他可能性。放弃与中心命题无关的数据,即使这些数据是很辛苦得来的。 标题 当你有了中心命题之后,就该决定文章的标题了。标题可以为你的方法,你的结果或结果的隐含意义做广告。文章的标题一般只有一句。应该把最重要,最吸引人的信息放进标题。比如,标题 “Steric restrictions in protein folding: an alpha-helix cannot be followed by a contiguous beta-strand” 主要突出了结果。另一方面,标题“Interpreting the folding kinetics of helical proteins” 突出了结果的含义。用标题 “Native proteins are surface-molten solids: Application of the Lindemann criterion for the solid versus liquid state” 的话,同时突出了方法和结果的含义。注意标题 “Native proteins are surface-molten solids” 是结果的解释,而不是结果本身。用既广泛又具体的标题,这样才能吸引更多的读者。 引言部分 中心命题和标题都决定了以后,就该写引言了。第一件该做的事就是围绕中心命题来收集所有相关文献。搜索并研究所有最近和相关的文章(通过对中心命题关键字的搜索或用引用索引)。确认你有所有最新的论文。引用所有重要的文章。如果你不引用别人的文献,别人也不会引用你的!如果你想谁引用你的工作,你要先引用他的。你引用的文章章越多,他们越可能阅读并引用你的文章。因为人们更加关注引用他们的论文。仔细读你所引用的文章,避免引用错误。在引用上,不要偷懒。 引言的第一句最难写,因为它决定了你整个引言的走向。我的办法是把第一句和文章的标题连起来。在第一段以最基本和常见的术语来定义标题里用的一些术语。从这个术语,引入研究的领域和它的重要性。第二段应该对这个研究领域作一个鉴定性的论述。如果中心命题是关于解决一个问题的方法。这一段就应该指出这个当前研究中现存未解决的问题。描述解决这个问题的难度或挑战。第三段引入你提出的办法和它大致会带来什么效果。你可以大略地描述你的结果和它的含义。这里有个...子。 Assessing secondary structure assignments of protein structures by using pairwise sequence-alignment benchmarks The secondary structure of a protein refers to the local conxxxxation of its polypeptide backbone. Knowing secondary structures of proteins is essential for their structure classification1,2, understanding folding dynamics and mechanisms3-5, and discovering conserved structural/functional motifs6,7. Secondary structure inxxxxation is also useful for sequence and multiple sequence alignment8,9, structure alignment10,11, and sequence to structure alignment (or threading)12-15. As a result, predicting secondary structures from protein sequences continues to be an active field of research16-18 fifty six years after Pauling and Corey19-20 first predicted that the most common regular patterns of protein backbones are the α-helix and the β-sheet. Prediction and application of protein secondary structures rely on prior assignment of the secondary-structure elements from a given protein structure by human or computational methods. Many computational methods have been developed to automate the assignment of secondary structures. Examples are DSSP,STRIDE, DEFINE, P-SEA, KAKSI,P-CURVE, XTLSSTR, SECSTR, SEGNO, and VoTAP. These methods are based on either the hydrogen-bond pattern, geometric features, expert knowledge or their combinations. However, they often disagree on their assignments. For example, disagreement among DSSP, P-CURVE, and DEFINE can be as large as 25%. More beta sheet is assigned by XTLSSTR and more pi-helix by SECSTR than by DSSP. The discrepancy among different methods is caused by non-ideal configurations of helices and sheets. As a result, defining the boundaries between helix, sheet, and coil is problematical and a significant source of discrepancies between different methods. Inconsistent assignment of secondary structures by different methods highlights the need for a criterion or a benchmark of “standard” assignments that could be used to assess and compare assignment methods. One possibility is to use the secondary structures assigned by the authors who solved the protein structures. STRIDE, in fact, has been optimized to achieve the highest agreement with the authors’ annotations. However, it is not clear what is the criterion used for manual or automatic assignment of secondary structures by different authors. Another possibility is to treat the consensus prediction by several methods as the gold standard. However, there is no obvious reason why each method should weight equally in assigning secondary structures and which method should be used in consensus. Other used criteria include helix-capping propensity, the deviation from ideal helical and sheet configurations, and structural accuracy produced by sequence-to-structure alignment guided by secondary structure assignment. In this paper, we propose to use sequence-alignment benchmarks for assessing secondary structure assignments. These benchmarks are produced by 3D-structure alignment of structurally homologous proteins. Instead of assessing the accuracy of secondary-structure assignment directly, which is not yet feasible, we compare the two assignments of secondary structures in structurally aligned positions. We assume that the best method should assign the same secondary-structure element to the highest fraction of structurally aligned positions. Certainly, structurally aligned positions do not always have the same secondary structures. Moreover, different structure-alignment methods do not always produce the same result. Nevertheless, this criterion provides a mean to locate a secondary-structure assignment method that is most consistent with tertiary structure alignment. We suggest that this approach provides an objective xxxxuation of secondary structure assignment methods. 在这个例子里,标题推荐了一个评估指派蛋白质二级结构的方法。第一段以二级结构的定义开始(与标题相连)。整段描述了二级结构的重要性。最后一句过渡到指派二级结构的计算方法(下一段的主题)。注意“计算方法”放在句子的最后是为了强调而且和第二段的开始连接在起来。第二段则聚焦在计算方法中存在的问题。旧信息“计算方法”逐渐的变到了“他们的不一致”。第三段的第一句把主题从“不一致”(旧信息)转变成了“评估的办法”(新信息)。然后,介绍了这个领域已有的工作。第四段引入新方法并讨论了新方法的优点。第五段(这里没有给出)将会简要地讨论结果。每一个引言应该包括研究领域的介绍和意义,做这工作的具体原因,结果和隐含的意义。一般而言,读者读完引言,对论文的来龙去脉就应该清清楚楚了。 讨论部分 现在到了你写论文的最后一部分。很多人认为讨论部分最难写。他们常常不知道该写什么。学生常常不能把结果从他们的解释,含意和结论中分离出来。此外,他们不善于思考可能存在的其他解释。好的讨论通常以得到的结果和解释的评论开始。其它可用于讨论的内容有:参数改变对结果的影响,与其他研究相比还有待解决的问题,将来或正在进行的工作(防止别人从事你显而易见的,立刻就能实现的后续工作)。这里有一段文章中的讨论部分。 One question about the complex homopolymer phase diagram presented here is whether it is caused by the discontinuous feature of the square-well potential. We cannot give a direct answer because the DMD simulation is required to obtain well-converged results for the thermodynamics. However, the critical phenomena predicted for a fluid composed of particles interacting with a square-well potential are as realistic as those predicted for a fluid composed of particles interacting with a LJ potential. Also an analogous complex phase diagram is found in simulations of LJ clusters. The present results for square-well homopolymers may well be found in more realistic homopolymer models and even in real polymers. 一段探究了可供选择的解释。 摘要部分 整篇文章写完了。你需要写文章的摘要了。典型的摘要包括课题领域的重要性(回到标题),要研究的问题,你方法的独特性,结果的意义和影响。这里有个例子。 How to make an objective assignment of secondary structures based on a protein structure is an unsolved problem. Defining the boundaries between helix, sheet, and coil structures is arbitrary, and commonly accepted standard assignments do not exist. Here, we propose a criterion that assesses secondary-structure assignment based on the similarity of the secondary structures assigned t structurally aligned residues in sequence-alignment benchmarks. This criterion is used to rank six secondary-structure assignment methods: STRIDE, DSSP, SECSTR, KAKSI, P-SEA, and SEGNO with three established sequence-alignment benchmarks (PREFAB, SABmark and SALIGN). STRIDE and KAKSI achieve comparable success rates in assigning the same secondary structure elements to structurally aligned residues in the three benchmarks. Their success rates are between 1-4% higher than those of the other four methods. The consensus of STRIDE, KAKSI, SECSTR, and P-SEA, called SKSP, improves assignments over the best single method in each benchmark by an additional 1%. These results support the usefulness of the sequence alignment benchmarks as the benchmarks for secondary structure assignment. 前两句陈述了问题。第三句提出了解决办法。这些句子后面跟着结果。整个摘要以总结收尾。 总结 认真对待写作。尽你最大努力花时间写作。它是科学研究的重要一环。文章 没写好,没人看,没人用,等于没发表。 除非这个研究是全面彻底的,而且你试了所有可以支持你结论的方法,否则 不要去发表。 重新思考,并合理解释为什么做这项工作,做了什么,什么是最重要的发现? 为什么用这个方法?为什么用这些参数?什么是以前做过的(更新文献搜索)? 不同在什么地方? 要从批判的角度来看你的工作。只有这样,才能找到弱点,进一步发展。我 的许多论文是在反复讨论中大幅度修改,许多计算经常要重做。只有理顺和 理解结果,文章才会更有意义。 要能回答所有合理的质疑。如果你自己有疑问,一定要搞清楚,否则别人又 怎会相信。 不要隐藏任何事实,不做假,不要低估其他科学家的智慧。让你的研究可重 复。把所有的材料和数据上网。 从头(标题)到尾(结论或讨论)要从旧信息过渡到新信息。永远不要在句 子的开头引入新信息。切忌在术语被定义之前使用它们。 ...段首要有阐明整段主题的句子,在段尾要有连到下段的过渡 句。从标题到结论都要连贯。句句相扣,段段相连,让一篇论文是一个整体 而不是杂乱无章地把句子堆积在一起。这样才能使读者享受阅读你的文章。 写,重写,再重写。没有人能第一次就写好。不花时间,不下功夫,写不好。 我的文章一般要修改十次以上。 感谢 此文中的一些例子出自 “The Science of Scientific Writing” by G. D. Gopen and J. A. Swan, Scientific American, 78, 550-558, 1990. 我在杜克大学Gopen教授1995年年度短训班受益非浅。我要特别感谢我的导师 Martin Karplus(哈佛大学),George Stell (纽约州州立大学-石溪校区), Harold L. Friedman (纽约州州立大学-石溪校区) 和 Carol Hall (北卡罗来纳州立大学)的鼓励和指导。没有他们,我不会有那么多机会练习英文写作。最后,我要感谢我的学生和博士后。他们对科学的贡献使我可以继续写论文,基金申请,或评论。此文中的一部分例子来自与他们合作的文章。此文初稿是用英文写的。由于我的中文打字速度太慢,特别感谢徐贝思帮我翻译成中文初稿。如果有不妥的地方是我的问题,请多指教。 二零零七年六月一日于印地安那
个人分类: 课题组相关|3031 次阅读|0 个评论
[转载]低氧水平可能驱动肿瘤生长
热度 1 liuyingxiang 2012-5-5 18:29
根据Regents-Georgia Research Alliance的最新研究成果,细胞缺氧或许是某些癌症的肿瘤不受控制地快速扩散的主要根源。目前的普遍看法是,基因突变导致癌症发展。 Regents-Georgia Research Alliance著名学者、Franklin艺术与科学学院生物信息学和计算生物学教授徐鹰说,如果事实证明细胞低氧状态是某些类型癌症的主要推动力,那么,控制恶性增长的治疗方案就会大大改变。 研究小组抽样分析了一个公共数据库里七类癌症的RNA数据或称转录数据。他们发现,细胞长期缺氧可能是癌症恶化的主要推动力。《Journal of Molecular Cell Biology》发表了研究报告。 以前曾有研究指出细胞低氧状态是癌症发展的一个促进因素,但不是癌症恶化的推动力。徐鹰指出,世界上癌症发病率居高不下无法仅仅用偶然的基因突变来解释。他还说,融合了生物学与计算学的生物信息学使研究人员得以从全新的角度看待癌症。基因层面的突变或许会给予癌症细胞相对于健康细胞的竞争优势,但他提出的癌症发展新模式不需要有通常的病状,比如癌基因突然扩散—那是癌细胞出现的前兆。 “癌症药物试图抵达特定突变在分子层面的根源,但癌症往往绕开它,”徐鹰说,“因此我们想,也许基因突变并非癌症的主要推动力。” 到目前为止,癌症研究大多着重于设计药物治疗方案来对付与特定类型癌症有关的基因突变。徐鹰的研究小组分析了从“斯坦福微数组数据库”下载的数据,辨别出七类癌症例如乳腺癌、肾癌、肝癌、肺癌、卵巢癌、胰腺癌和胃癌的异常基因表达形式。这个网上数据库允许科学家从微数组芯片检索信息,微数组芯片是包含了大量基因资料的小玻璃片。 徐鹰以基因HIF1A为生物标记物来表示细胞内分子氧的数量。全部七类癌症均显示HIF1A数量上升,说明癌细胞内的含氧量下降。 细胞内缺氧会阻碍氧化磷酸化活动,而氧化磷酸化是正常情况下细胞将养分转化成能量的高效途径。随着氧气减少,细胞转而用酵解方式来生成被称作ATP的能量单位。而通过酵解来获取能量的效率要低得多,因此癌细胞必须加倍辛勤工作来获取更多养分—具体地讲就是葡萄糖—以便存活下去。当含氧量降到极低程度时,长出新血管的过程就开始了。新的血管提供新鲜氧气,从而提高细胞和肿瘤里的含氧量,减缓癌症的发展—但只是暂时的。 “癌细胞得到更多养分就会生长,这使肿瘤的生物量变大,也就更加缺氧。反过来,能量转化效率进一步下降,致使细胞更加饥饿,促使细胞从血液流动中获得更多养分,于是形成恶性循环。这可能是癌症的主要驱动因素,”徐鹰说。 徐鹰指出,这个新的癌症发展模式有助于解释为什么许多癌症很快、往往在3到6个月内就变得具有抗药性。他强调了通过实验性癌症研究对这个新模式进行检验的重要性。假如这个模式适用,那么研究人员就需要想办法防止细胞出现低氧状态,癌症治疗可能会发生翻天覆地的变化。
个人分类: 科学微博|2684 次阅读|3 个评论
准备试着做一个“实验观摩”的专题
aozhou 2012-5-3 23:21
前面写过一篇关于实验生物学与计算生物学隔阂的博文, 想到自己对实验方面也是知之甚少, 不能很好的了解实验生物学家在做什么, 一方面不能很好的了解他们的需求,不了解如何才能帮他们改进实验方法; 另一方面我们也不知道有哪些实验可以validate我们由计算得到的结果。 曾经想专门去修一门实验课,但是因为专业的限制却没有这个条件, 我想很多搞计算的同学也面临着同样地问题吧。 所以我考虑联系周围一些熟识的做实验的同学, 以一个Bioinformatician的眼光观摩一下他们的实验, 然后尽量把实验的方法、目的简明地概括出来, 想必对其他做计算的同学也会略微有一些帮助吧。
个人分类: 实验观摩|2534 次阅读|0 个评论
计算生物学研究进展与文献引证分析
xupeiyang 2012-4-16 09:15
计算生物学(Computational Biology)是生物学的一个分支。根据美国国家卫生研究所(NIH)的定义,它是指开发和应用数据分析及理论的方法、数学建模和计算机仿真技术,用于生物学、行为学和社会群体系统的研究的一门学科。 Science专题:计算生物学 http://www.ebiotrade.com/newsf/2012-4/2012413164050218.htm 主题=(Computational Biology) 时间跨度=所有年份. 数据库=SCI-EXPANDED. 此报告中的引文均来源于Web of Science收录的文献。 找到的结果数: 4947 被引频次总计: 88832 去除自引的被引频次总计: 83284 施引文献: 68145 去除自引的施引文献: 65842 每项平均引用次数: 17.96 h-index: 117 http://apps.webofknowledge.com/CitationReport.do?product=WOSsearch_mode=CitationReportSID=W21jpME13OA138368dMpage=1cr_pqid=3viewType=summary 文献计量分析结果 字段: 作者 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 JIANG T 26 0.526 % WANG LS 19 0.384 % SHAMIR R 18 0.364 % BOURNE PE 16 0.323 % ALURU S 15 0.303 % PALSSON BO 15 0.303 % WEBER GW 15 0.303 % WANG Y 14 0.283 % AKUTSU T 13 0.263 % BAFNA V 13 0.263 % 字段: 国家/地区 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 USA 2481 50.152 % ENGLAND 476 9.622 % GERMANY 464 9.379 % ITALY 308 6.226 % PEOPLES R CHINA 253 5.114 % CANADA 252 5.094 % FRANCE 249 5.033 % JAPAN 213 4.306 % SPAIN 172 3.477 % ISRAEL 133 2.688 % 字段: 基金资助机构 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 NIH 168 3.396 % NATIONAL INSTITUTES OF HEALTH 148 2.992 % NATIONAL SCIENCE FOUNDATION 107 2.163 % NSF 83 1.678 % EU 49 0.990 % NATIONAL NATURAL SCIENCE FOUNDATION OF CHINA 42 0.849 % EUROPEAN COMMISSION 39 0.788 % EPSRC 23 0.465 % WELLCOME TRUST 23 0.465 % EUROPEAN UNION 21 0.424 % 字段: 机构 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 HARVARD UNIV 114 2.304 % UNIV CALIF SAN DIEGO 112 2.264 % MIT 100 2.021 % UNIV CALIF BERKELEY 79 1.597 % STANFORD UNIV 76 1.536 % UNIV ILLINOIS 74 1.496 % UNIV OXFORD 59 1.193 % UNIV WASHINGTON 59 1.193 % JOHNS HOPKINS UNIV 54 1.092 % UNIV PENN 53 1.071 % 字段: 出版年 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 2011 724 14.635 % 2010 622 12.573 % 2009 612 12.371 % 2008 550 11.118 % 2007 436 8.813 % 2006 407 8.227 % 2005 350 7.075 % 2004 257 5.195 % 2003 185 3.740 % 2012 160 3.234 % 2002 143 2.891 % 2001 99 2.001 % 2000 87 1.759 % 1999 78 1.577 % 1998 60 1.213 % 1997 41 0.829 % 1995 38 0.768 % 1996 32 0.647 % 1993 20 0.404 % 1992 15 0.303 % 1994 14 0.283 % 1991 6 0.121 % 1989 5 0.101 % 1987 3 0.061 % 1986 2 0.040 % 字段: 出版年 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 2011 724 14.635 % 2010 622 12.573 % 2009 612 12.371 % 2008 550 11.118 % 2007 436 8.813 % 2006 407 8.227 % 2005 350 7.075 % 2004 257 5.195 % 2003 185 3.740 % 2012 160 3.234 % 2002 143 2.891 % 2001 99 2.001 % 2000 87 1.759 % 1999 78 1.577 % 1998 60 1.213 % 1997 41 0.829 % 1995 38 0.768 % 1996 32 0.647 % 1993 20 0.404 % 1992 15 0.303 % 1994 14 0.283 % 1991 6 0.121 % 1989 5 0.101 % 1987 3 0.061 % 1986 2 0.040 % 字段: 学科类别 记录 计数 %,共 4947 柱状图 表格中显示的数据行 所有数据行 BIOCHEMISTRY MOLECULAR BIOLOGY 1716 34.688 % COMPUTER SCIENCE 1322 26.723 % MATHEMATICAL COMPUTATIONAL BIOLOGY 875 17.687 % BIOTECHNOLOGY APPLIED MICROBIOLOGY 836 16.899 % MATHEMATICS 703 14.211 % LIFE SCIENCES BIOMEDICINE OTHER TOPICS 335 6.772 % CELL BIOLOGY 306 6.186 % SCIENCE TECHNOLOGY OTHER TOPICS 278 5.620 % GENETICS HEREDITY 242 4.892 % CHEMISTRY 241 4.872 % BIOPHYSICS 238 4.811 % ENGINEERING 231 4.669 % PHARMACOLOGY PHARMACY 209 4.225 % PHYSICS 139 2.810 % RESEARCH EXPERIMENTAL MEDICINE 95 1.920 % NEUROSCIENCES NEUROLOGY 72 1.455 % OPERATIONS RESEARCH MANAGEMENT SCIENCE 66 1.334 % RADIOLOGY NUCLEAR MEDICINE MEDICAL IMAGING 59 1.193 % ONCOLOGY 57 1.152 % TOXICOLOGY 57 1.152 % ENVIRONMENTAL SCIENCES ECOLOGY 52 1.051 % MEDICAL INFORMATICS 52 1.051 % MATERIALS SCIENCE 50 1.011 % PLANT SCIENCES 50 1.011 % DEVELOPMENTAL BIOLOGY 46 0.930 % • Science专题: 计算生物学 • 计算生物学 所发现人类大脑起源于皮质突触发育的延迟 • 计算生物学 所发现人类大脑起源于皮质突触发育的延迟 • 奇拉实验室在 计算生物学 所成立 • 韩敬东任中科院上海生科院 计算生物学 研究所所长 • 最新 计算生物学 研究成果实现20年梦想 • 中科院 计算生物学 重点实验室揭牌 • 生命科学研究走向精确量化的“ 计算生物学 ” • KlausGerwert教授出任 计算生物学 所所长 • 计算生物学 伙伴研究所举行UliSchwarz实验室揭牌仪式 • 计算生物学 研究所在沪筹建 • 中美联合成立 计算生物学 实验室
个人分类: 引证分析|3519 次阅读|0 个评论
思辩理性与实践理性
benlion 2012-2-24 08:20
如何看待传统文化,应该看西方是如何看待自己的传统文化,有吸收有批判有重新诠释,但仍然坚持来源于传统,这与不加研究不加思考的通盘简单地论断是有本质区别。一个人的精神世界和一个民族的文化创新一定是有根有源,个人如何适存一个社会或一个民族如何存在于一个世界,这是关键之所在。 比如,美国电影《飘》、《云中漫步》都反映了一个根的概念,好象西方有一部小说就是《根》(需查证题目)的作者就获得诺贝尔文学奖。 关于传统文化,举例:乔布斯从佛教中领悟的精神,高更等现代画家从佛教中领悟的艺术方法,西方人曾经也劝说我学点禅宗的方法。 再比如,中医药的现代化,也就是采用现代科学和技术,尤其包括系统科学、计算生物学、组学(omics)生物学和其它现代科学技术学科开发中医药的理论和药物和原理的研究,中国人如果不能成功,西方人也会成功完成。 中国目前创新力度不够,不是因为中国古代已有的文化,而是现今所缺少的文化,比如,认知而可言传的知识,西方的思辩理性 - 偏于理论 - 演绎的基础,践行而需身教的知识 - 东方的实践理性 - 偏于经验 - 归纳的基础。传统向现代文化转型和中西文化的贯通,其中一个缺环就是语言分析和哲学思维,哲学与科学研究之间的环节是范式。 伦理和法制是对社会群体的组织与管理,科学研究客观与真实的存在,具备可操作、可重复、 可验证、 可推理、可预测、可观察和数学模型的精确化等特征,而不同于 神话故事、科幻小说。 纯粹研究通过信息链转化为实际应用,批判与自我批判、认识与反思是一种求证的机制。 在精细分析思维、理论严谨推理上的缺乏,而在艺术和文学的发散思维、意象思维上可能处于优势,缺乏那种深入、精细、严谨和完备的哲学思维、辩论,这需要从西方学习,这是希腊哲学的传统。在法律、规章上缺乏细致周密的条文和严格按制度、程序执行的遵守,这在国内的实验研究的技术操作上也有一定体现或反映。 科学研究、技术发明和伦理分析、法律辩论等,经过近代欧洲的发展,已经建立一套完整而更精细、严密和规范的体系,比古代无论是中国,还是希腊、罗马更精细化、严谨化和体系化,只有通过学习现代西方的科技、管理的基础上,才能弥补传统中的不足和将古代初级较粗的文化转换到更精细化和系统化的模式。 如果,在体制和规章制度设计上不周密,自然就会出现漏洞和执行不利,如果在行动上不能严谨、严格依程序和规范操作,就很难以实现体制设定的目标,在科学研究上体现为缺乏客观和逻辑依据,在法制和政策实施上体现为依人情关系而异的分歧和法治不够。 另外,中国人在国外遵纪守法,在国内为何做得不是很好,一个道理,国外教授大部分时间阅读文献熟悉专业,技术员精细于实验操作流程,师道尊严在于以身传教、法制规范在于以身作则。
2894 次阅读|0 个评论
[转载]今年获国际科技合作奖的栗原博是本网博主栗原博吗?
热度 2 Wuyishan 2012-2-15 15:26
http://digitalpaper.stdaily.com:81/http_www.kjrb.com/kjrb/html/2012-02/15/content_143747.htm?div=-1 中华人民共和国国际科学技术合作奖 德乐思 德乐思,德国籍,男,1938年8月出生,国际著名数学家,中国科学院-马普学会计算生物学伙伴研究所首任执行所长、德国比勒菲尔德大学顾问。由上海市推荐。 德乐思教授2005年全职来华工作,组建中国科学院和德国马普学会合作共建的计算生物学伙伴研究所,他与其他所领导一道,带领全所人员勇于探索,大胆实践,构建了一个国际化研究所的组织架构,为研究所后续健康、快速发展奠定了坚实基础。研究所成立以来,组织了大量的国际学术活动,已与近30个国外研究机构建立了长期合作项目和研究生联合培养项目,在计算生物学研究领域获得了国际同行认可的学术地位。 江见俊彦 江见俊彦,日本籍,男,1935年2月出生,国际著名冶金专家。因其在钢铁冶金领域的卓越贡献,曾先后荣获瑞典工程院Brinell金质奖章等27项奖励。由江苏省推荐。 2006年,江见俊彦教授加入江苏省沙钢集团有限公司,任沙钢集团钢铁研究院院长,全面负责研究院的建设与运营。同时,他还亲自指导研发项目的开展,先后建立科研项目101项。截至2010年12月底,项目产品销售总量达200万吨,销售收入88亿元人民币;项目成果申请专利29项,其中发明专利24项,已获授权8项。他还积极推动与国内外高等院校和科研院所的合作,建立了多项国际科技合作项目。 戴宇阁 戴宇阁,法国籍,男,1959年1月出生,医学专家,巴黎第七大学教授,法国科学院院士。2005年受聘为上海交通大学医学院顾问。由上海市推荐。 戴宇阁教授长期以来积极参与和推动中法科学交流和合作,在合作过程中,他为培养中国医学研究的高端人才创造有利条件,促成申请并完成了多项合作计划。2002年戴宇阁教授和中方人员共同促成中法生命科学和基因组研究中心成立,该中心是中法两国在生命科学领域内最大的合作平台。在此基础上,2006年成立了癌症研究中法国际合作实验室(LIA),吸引了更多的中法优秀科学家加盟。中法中心以及国际合作实验室的成立得到了法国政府高度重视及评价。 约翰·巴士威 约翰·巴士威,英国籍,男,1942年6月出生,食用菌生理和活性物质研究专家。由上海市推荐。 自2003年受聘为上海市农业科学院客座研究员以来, 巴士威教授倾力促成中国于2005年首次举办世界食用菌大会——第五届世界食用菌生物学及产品大会,积极推进中国重要食用菌品种香菇、草菇和灵芝等基因组测序和蛋白质组学研究工作,全力在国际上介绍中国食用菌科研和产业情况,成功推荐中国食用菌人才走向国际舞台。他通过在中国建立食用菌生理生化研究队伍,邀请大批国外知名食用菌工厂化专家来华交流,推荐中国食用菌专家到欧美留学访问和交流等多种形式,有力地提升了中国食用菌行业的科技水平,促进了中国食用菌产业的进步。 栗原博 栗原博,日本籍,男,1954年12月出生,中药及保健品功能研发专家,暨南大学中药及天然药物研究所副所长。由广东省推荐。 自20世纪80年代以来,栗原博教授积极推动中国与日本的科技合作交流。2003年,他从日本带来一批先进仪器设备,并利用境外资金建立暨南大学白兰氏基金会健康科学研究中心,邀请国外科学家来华进行学术交流,开展国际合作研究。来华后,他一直从事中药及保健品功能研究,建立了多种中药活性及功能评价方法,推动了中药的国际化进程。他还积极推进天然无咖啡因茶的产业化工作,成功解决了品种纯化及产业化育苗等关键技术,为该茶叶品种大规模种植及进入国际市场奠定了坚实的基础。他热心参与教学工作,指导中国博士、硕士研究生四十余人,深受学生的好评。 斯蒂芬·波特 斯蒂芬·波特,美国籍,男,1934年4月出生,国际第四纪联合会主席,国际著名的地质学家,中国科学院院聘客座教授。由中国科学院推荐。 自1985年始,波特教授通过与中国科学家开展合作研究、共同筹办国际研讨会、举办学术讲座、担任客座教授等多种形式,为中国第四纪科学研究事业做出了突出的贡献。20多年来,他对中国青年科学家与国际同行的交流合作与成长起到重要推动作用,他多次在国际学术大会上宣传中国青年科学家的成长及对第四纪科学发展的贡献。同时,他对中国科学院地球环境研究所的发展以及学科方向的制定都投入了大量的精力,为地球环境研究所乃至中国第四纪研究走向国际做出了重要贡献。 岩本爱吉 岩本爱吉,日本籍,男,1950年2月出生,传染性疾病与病毒学专家,东京大学医科学研究所亚洲传染病研究中心主任。由中国科学院推荐。 岩本教授为促成2005年中国科学院与日本东京大学签署合作协议做出了重要贡献,并在此基础上成功申请了2005年日本文部科学省资助的“新发、再发传染性疾病研究基地建设项目”,联合中国科学院微生物研究所、生物物理研究所分别建立了“分子免疫学与分子微生物学联合实验室”和“结构病毒学与免疫学联合实验室”。 2006年,上述两个实验室被正式批准作为中日两国政府间合作项目。此外,岩本教授一直致力于与中国医院、国家及地方疾病控制中心在新发突发传染病方面开展合作研究,增进了中日两国分子医学研究领域的协同发展。 逯高清 逯高清,澳大利亚籍,男,1963年11月出生,纳米材料专家,澳大利亚工程院院士、昆士兰大学副校长。由中国科学院推荐。 逯高清教授与中国科学院金属研究所等多家单位建立了长久的合作关系,特别是2003年他成为中国科学院海外创新团队-沈阳界面材料研究中心的核心成员并任中国科学院金属研究所特聘研究员以来,与金属研究所在清洁能源用材料等领域进行密切合作,共同完成了多项国际合作项目,促进了中国科学院在太阳能光催化、储能、储氢等清洁能源用材料领域的快速发展。逯教授还致力于中国新能源材料领域青年人才的培养,并积极推动澳大利亚科学院、澳大利亚工程院与中国的交流合作。
个人分类: 科林散叶|3106 次阅读|3 个评论
能逃得过世俗吗?2012寄语
zls111 2012-1-5 20:59
当下各种人才项目支持(比如杰青,千人,百人啥的),以及项目申请,很多人都想摊上一把。就连我这个还是学生也是想着以后怎么弄到这些东西,这些除了经费,还有荣耀,能显示一个人的能力等。不眼馋还真说不过去,眼馋了难免就要坏事,心里就在想能逃得过这些吗? 我觉得我幸运的是没钱照样能做科研,计算生物学是越来越有搞头,前天一个师姐还说,你生物信息与生物学问题结合的很好,我那个得瑟,哈哈。要是离了钱就不能做科研的,哎,搞不到也得搞,要不然就得换行业,一旦趟了进来,那压力还真是大。竟然没钱我也能搞科研,我就应该看淡这个,而不是拿着世俗的眼光来要求自己,眼光应该看得更远。 前几天与师兄吃饭,突然聊到我们这些人,除了科研还能做什么,就说我是这样的。当时心里也凉飕飕的,脑子在努力寻找我还能做什么?当时没想到答案,后来想到一个答案,我是独立的人,是一个有自己独立思考的人,这就是我能任何时候能屹立于这个社会的资本。因为这么多年的受到的训练就是这些,并且训练出了一定的科学逻辑思维。由这些就想到前面说的,对于每个问题自己得想清楚,不管社会怎么世俗,我有我的一套,我有我的角度。 坚持理想,坚持自己。穷则独善其身,达则兼济天下。
个人分类: 生活点滴|2355 次阅读|0 个评论
计算生物学/生物信息学的未来是什么?
热度 9 friendpine 2011-10-17 21:57
做为一名快要毕业的生物信息学博士生,对于这个问题一直在思考。以我对于现在这个学科的粗浅的认识,我认为现在的生物信息学和计算生物学大部分都只是停留在辅助实验和解释生物学现象上,有一些工作发现了一些生物学规律,很少的工作提出了指导本领域或者整个生物学的发展。难道我们做生物信息学的就只能够当帮手吗? 当年之所以选择生物信息学完全是受到理论物理学的激励,特别是20世纪上半部分那些理论物理学大师们就像战场上的英雄,他们所向披靡不可战胜,把所有的障碍推掉之后呈现给物理学的是一片广袤的疆域。每每读起这段历史我都会心潮澎湃,真想把自己也变成这样的英雄。可是做了几年的生物信息学发现自己似乎没有成为英雄的希望,这对我的打击是相当大的。我做理论生物学不就是想提出新理论指导生物学的发展吗?结果却成了实验生物学的打杂工。我想知道为什么会这样。 生物信息学和理论物理学好像有较大的差别。以我的孤陋寡闻,生物信息学可以包括下面的一些工作: 1 基因的结构和功能确定。给定一条序列,如果能够找到与其相似度高的同源序列,那么它的结构和功能就差不多可以确定了。这个过程涉及到多序列比对和相似性搜索。如果没法找到与之相似度高的序列,则需要考虑复杂一点的搜索技术,如基于profile的搜索和比对,或者寻找与之部分结构如结构域/motif相似的序列,这类似于结构预测中的threading过程。如果这两步都搞不定,那么只能通过从头预测该序列的结构了,不过在实际应用中很不准。 2 序列信息的挖掘,如序列中aa组成,motif的发现等等 3 进化分析。这也是一个很大的领域,包括很多方向,如计算分子进化。从序列出发,去拟合最好的进化模型和参数,这就是计算分子进化。此外,基因组进化分析能够得到一些进化的规律,但是要系统的理解生物的进化还需要依赖于系统的思路。 4 组学的工作,如转录组,代谢组,蛋白组学等等。这类工作涉及的是网络分析。基于大规模的实验数据,通过网络分析可以从系统的水平上得到对于某个生物学过程更好的理解。这是生物学发展的趋势。 5 基因型到表型的mapping。如现在很热的GWAS研究,基于序列的抗原表位预测,或者基于分子marker的疾病预测模型等等 当然还有其他很多工作没有列出来,但是上面的工作很有代表性。除了进化分析稍微独立一点,其他的工作都与实验生物学紧密相关。这说明在生物信息学这个领域不太可能像在理论物理学中那样出现一位英雄人物能够凭一人之力引领整个领域的发展,可能更多的情况是一些大牛们各自占个山头,共同引领领域的发展。 生物信息学的未来是什么?很多人都认为是系统生物学,这是一个自然而然的过程,不过我们这些生物信息学的大部分还是会给实验生物学家打杂,这是这个学科注定的结局。
个人分类: 生物信息学与计算生物学|20125 次阅读|10 个评论
计算生物学和生物信息学中有意义的5类工作
热度 2 friendpine 2011-10-17 13:30
我个人觉得做计算的只有做下面的这些工作才会有意义。否则,文章发了一大堆,其实都是一些垃圾。 1 辅助实验生物学,为之减少实验量,提供一些建议和参考。比如通过计算分析发现一些重要的位点,供实验生物学家进行验证。 2 为计算同行和实验生物学家提供资源或者工具,比如建立一个数据库,或者发展一些分析工具。 3 对生物学现象提供一些机理机制的解释,比如对于分子之间相互作用的动力学模拟。 4 生物学新发现,增进人们对于该问题的认识 5 提出理论框架指导计算同行和实验生物学家,比如中性进化学说 以上 5 类我个人更喜欢最后两类,特别是最后一类更应该是理论生物学家做的事情。
个人分类: 生物信息学与计算生物学|6578 次阅读|2 个评论
2012IEEE计算智能在生物信息学和计算生物学的应用国际会议
profjin 2011-10-2 16:48
2012年IEEE计算智能在生物信息学和计算生物学中的应用国际研讨会 (2012 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology) 将于2012年5月9-12日在美国加州的圣地亚哥举行。 具体信息参见: http://www.cibcb.org/2012/ 投稿截止日期:2011年11月20日。
3931 次阅读|0 个评论
[转载]改良作物的基因组学和生物信息学资源 焦传珍、谢兆辉/编译
热度 1 syfox 2011-9-16 14:27
被认定为本世纪一门重要科学的基因组学极大改变了历史上较弱的实验生物学和理论生物学之间的联系。《细菌学杂志》发表有关计算生物学的内容则标志着上述两者关系的转折。本综述集中在细菌基因表达的计算生物学上,详述其作为广泛应用的生物信息学工具的相关内容,希望增加人们对基因表达的了解。 全基因组序列注解和后来高通量基因解码表达方法论的发展,对基因表达研究影响很大。在基因组计划时代之前,大多数研究都集中在个体基因组系统,许多研究人员都致力于研究细菌的单个调节系统,如操纵子、调节子和启动子,以及它们对细胞的生理作用,这为我们最近对细胞的整体了解打下了坚实基础。 基因组学为微生物学家在细胞整体背景下了解个别系统基因的表达提供了机会,这些综合知识也改变了研究基因表达进化的资料。基因组时代主要的挑战是如何在整体分子生物学水平处理大量的信息,以获得总的生物学知识。生物信息学则是在这方面取得进展所必需的,因为它为处理大量的信息提供了必要的条件,如数据库、形成基因组标准问题答案的算法、概述、导航和进行分析和验证分析结果的统计学方法。 目前,关于原核生物基因表达调控的信息相当多,包括不断增加的全基因组序列数量和少数已经了解的细菌基因组信息。对于上述获得的全基因组序列,有的实验室工作还不多,如一些不能在实验室培养的生物和研究甚少的古细菌。图1以微生物为例,显示了已公布的基因表达知识的高度不均衡。 人们首次详尽了解的一套调节启动子、它们相关的转录因子(TFS)和TFS的DNA结合位点(TFBSs)来自大肠杆菌K-12的120 δ70 和δ54 的启动子。这些资料和获得的信息现在是RegulonDB数据库的种质资源( http://regulondb.ccg.unam.mx/ ),也是关于大肠杆菌K-12转录起始调控和操纵子组成的原始资料。它们包含目前任何一个自由生活的有机体主要的电子编码的调控网络。此外,EcoCyc数据库也存放了这些信息。EcoCyc是大肠杆菌模式生物数据库。除上述信息外,它还拥有涉及代谢和转运的相关信息( http://ecocyc.org/ ),保守估计目前它收集了大约25%的全细胞转录起始调控网络的相互作用信息。RegulonDB不应被理解为一个数据库,而应被理解为基因组调节研究的环境,它与生物信息学中有益于分析基因上游区域的工具联系,同时也有数据集(Dataset)和微阵列分析的工具,并且,最近可以直接访问支持其信息的全部文件。我们不仅拓展最新的原始资料,而且还发起了“积极的注解”,来用Jean-Michelle Claverie’s 的术语,来通过利用高通量策略实验描绘更精确的启动子图。 这篇小综述组织的时候,考虑到一个事实:即《细菌学杂志》的读者大多是实验者。本文以几个例子开始,是生物信息学中关于基因表达调节的,集中在启动子、及其定义和调节,以及操纵子结构等。第二部分总结了RegulonDB是如何有益于试验者的,以及它作为“黄金标准”,在提供生物信息学的预测方法、拓扑分析网络和提供细胞模型方面的作用。最后一部分叙述了一个关于细菌基因表达调节的生物信息学资源连接。我们说明了利用Textpresso可以获取支持大肠杆菌调节网络的2,400全文文献。谨记:这三部分的例子倾向于大肠杆菌和它的RegulonDB调节数据库。这种偏重是自然的,因为,首先我们的直接经验与RegulonDB相关;第二,尤其对细菌基因调控(图1),我们可以引述Fred Neidhardt 的话:“不是每个人都意识到了它,但所有细胞生物学家感兴趣的有两个:一是他们正在研究的,二是大肠杆菌的。 图1 每种生物已公布的数量。我们通过关键词搜索了PubMed,这个关键词常被用来为RegulonDB搜集不同细菌信息。 Escherichia coli:大肠杆菌;Bacillus subtilis:枯草杆菌;pseudomonas aeruginosa: 铜绿假单胞菌;salmonella typhimurium:沙门氏菌;Vibrio cholerae:霍乱弧菌;Yersina pestis:鼠疫耶尔森氏菌; Caulobacter crescentus: 新月柄杆菌;Haemophilus influenzae:流感嗜血杆菌;Azotobacter vinelandii.好气性固氮菌;Shigella flexneri:弗氏志贺氏菌;Legionella pneumophila:嗜肺军团菌; Rhizobium etli:埃特里根瘤菌 1. 从基因调控的总体概观获得的知识:启动子的定义、RNA聚合酶δ70对邻近点(序列)的需求及操纵子的结构 从历史上看,基因调控知识是从研究大肠杆菌的乳糖操纵子、它的顺式调控元件及变构作用的概念开始的。很快,这种基于阻遏的模式被拓展,延伸到更加精细的基因表达的正调节机制。自那时起,人们目睹了分子水平剖析基因表达机制的多样性知识被逐步延伸,也了解了决定细胞关键过程的丰富机制。大肠杆菌启动子的保守基序–10序列(也称Pribnow 框)的发现是一个引人注目的事件,这个有短短7个核苷酸残基的DNA序列仍然具调节功能的模式。这是早期生物信息学对研究基因调控的一个贡献。当然,鉴定出启动子区是结合RNA聚合酶(RNAP)的物理区域,是由于将研究转录起始的实验作图和模式识别结合在一起的原因,起初通过目测检查,现在则可以通过多序列比对完成。在某种意义上,可以说启动子的发现来自实验和生物信息学证据的结合。 我们应该记住,收集大量的生物学数据不能保证我们可以弄懂它的意思,或新知识将出现。我们可以通过下面的事件来阐明,这就是我们从广泛的收集基因表达调解网络组分中学到了什么,那就是受调节的启动子和它到增强子或沉默子结合位点的距离。第二个例子揭示了一个简单的操纵子结构分析能够发展一种预测大肠杆菌操纵子的方法,然后延伸到其它任何细菌基因组。 如上所述, 1991年,我们收集了大肠杆菌K-12大约120个左右的启动子信息,自那时起我们为持续增加数据集( http://regulondb.ccg.unam.mx/html/Database_summary.jsp )而努力搜集的最清楚明白教训之一是:在δ70全酶(Eδ70)背景下调节转录的起始,总是需要一个近侧 DNA位点(一个近侧 DNA位点是通过它到转录起点的相对位置来定义,以便可以推测转录因子和RNA聚合酶直接联系)。17年后,6.2 版本的RegulonDB(2008年7月)中有1,754个启动子。其中,697个是δ70启动子,421个至少有一个典型的转录因子结合位点。这个启动子集合有1,382相联系的结合位点和协调位点。在早期文章中,近侧位点的定义是从-65到+20,其中单激活和共激活被发现,它们来自有环磷酸腺苷受体蛋白(CRP)的-90位点。1991年以后,我们还了解到,RNA聚合酶的C-末端区域的可以灵活延伸到近端-100区,支持了它可以直接与CRP相互作用的观点。因此,在原则上,能够与RNA聚合酶直接联系的位置可设置在-95到+20之间。目前的研究表明,只有26个启动子(占总调节启动子的不到5.9%)在这个区间缺乏位点。所以原则上,没有启动子只受远端调控序列的调节,除了δ54的启动子之外。图2显示了这个区域内的近端位点分布,我们可以看到与1991年综述中的相同倾向,抑制蛋白分布在所有的近端区域,但从下游-30到上游+20之间是主要的分布区。抑制蛋白可以阻断RNAP与上游-30到下游+20之间近端区域的相互作用,也可阻断其与-40、-50和-60中心区激活蛋白的相互作用。purB基因与hflD基因共转录,可以被PurR沉默,只有一个操纵基因位于+892.5。它能够干扰转录的起始,或作为障碍阻碍转录聚合酶的转录过程。 图2 转录因子DNA结合位点的分布。6.2版RegulonDB有697个δ70启动子,其中421至少有一个独特的转录因子结合位点。这张图展示了激活蛋白和抑制蛋白从–95到+20之间的DNA结合位点。启动子的百分率被激活蛋白和抑制蛋白DNA结合位点中心碱基的位置分开,间隔10bp,这张图可以与参考文献16的图2比较。 如图2所示,所有的激活蛋白,不仅CRP,往往优先作用于附近-40和-70位点。RNA聚合酶δ-亚基的C -端区域结合于-50区,也可以解释激活蛋白在-50区结合减小的现象。另一方面,一些激活蛋白结合位点和启动子重叠,并可以结合在下游的+1位点。转录因子MerR家族激活转录,结合在启动子-35区和-10之间回文结构上。其它调节因子激活转录是通过-10和+20之间的附属结合位点。一个突出的、描述详细的例子是被IHF在+1848 区的激活,IHF可以使DNA弯曲而利于转录。 认识基因调控需要对操纵子结构有一个详细了解。这多亏了Mary Berlyn的努力。1998年左右,Mary Berlyn等人利用最初一套推测的操纵子填入RegulonDB,这套操纵子已经被实验和基于从最初启动子学到的规则所拓展。图3显示了操纵子内基因间距离的分布(2002年的572 ,2008年的1,839) 和同向转录操纵子边界距离的对比(2002的346 个,2008的1,311个)。这种明确的操纵子内部短距离分布与操纵子上游基因间区域的对照是预测操纵子的基础,甚至可以预测大肠杆菌中那些还没有了解功能的基因,和以后的很多细菌基因组。如下提到的,高质量的策划语料库,像这一个,已经支持了生物信息学方法的发展,这些方法能够预测调节网络的很多方面。 图3 转录单位边界和转录单位内部的基因间距离。这种巨大的距离差异能够用来预测完整大肠杆菌基因组的转录单位。 我们回想启动子元件的定义如何成为了目前生物信息学方法基础,从而进行模式识别。在这里简单的讨论了两个例子,说明收集大量的个体资料在研究生物基因表达方面是富有成效的:第一个例子是启动子及其它们的调节,第二个例子是操纵子结构。虽然这类似于同一类型邮票的大集合,但事实是,正如我们以前说的,基因组的最大挑战是另外一件事,也就是需要将一个系统或基因、它的产品与受相似调节的基因的表达方式整合在一起。 2. 基因调控的电子资源如何对实验主义者大有用处 在这里,我们说明研究基因表达的实验科学家和生物信息学学家,无论他们研究大肠杆菌,还是许多其它生物,都已经广泛利用RegulonDB来获得某些基因表达方面的信息。我们注意到,RegulonDB包含详细、准确和最新的关于操纵子组成、转录因子在DNA上的结合位点、启动子、终止子以及RNA调控元件的信息,这些RNA调节成分可能是实验获得的,也可能是假定的。上述这些元件组成了大肠杆菌已知的转录调节网络。这部分最初的信息资源来自于数据库使用者的问题,文献引用研究和RegulonDB的应用研究。我们相信这些问题也对其它他数据库,或其它细菌也适用。表1提供了自RegulonDB建立以来选取的一系列文章,强调了它们利用RegulonDB的目的。利用微阵列或蛋白质组学资料研究基因表达或调节子结构的人,已经开始考虑用大肠杆菌操纵子结构去理解实验资料,因为很多野生型或突变型菌株生长在不同的条件下。例如,在Yooseph等人的工作中,为了统计和鉴定同一操纵子的基因对,他们利用收集RegulonDB里的转录单位对7.7百万个全球海洋抽样调查序列进行了分析。RegulonDB也已经被用来鉴定调节因子的结合位点和测定这些信息如何与野生型或转录因子突变型菌株的基因表达相互联系。利用基因组策略(染色体免疫共沉淀,Chip-Chip)定位启动子和转录因子位点也依赖于这个数据库作为原始信息资源或蛋白质组学资源。在利用染色体免疫共沉淀定位基因组范围内RNA聚合酶结合位点过程中,RegulonDB鉴定出的961个启动子被用来确定26%的阴性检测率。 基因表达信息的语料库(corpus)对基于生物信息学的多个过程是必要的。就像表1描述的,这个语料库为调节成分的预测和检验提供了方法,如启动子、转录因子和转录因子结合位点;转录因子和操纵子的全基因组表达方式;甚至是未辨别出的网络之间的联系。这个语料库也可以达到调解网络的动态建模和提出新生物学概念的目的,如Uri Alon报道的网路基序或Ravasz等描绘的分层次和模块化的网络概念。 虽然直系同源关系推断存在风险,但注解的基因组和巧妙的知识转换方法,使我们仍然有能力判断不同生物之间不同的调节网络线路,尤其是细菌之间的网络线路。我们现在已经很清楚:细菌调节网络进化的起源依赖于基因的复制和分化,操纵子重组、结合位点德重复和水平的基因转移。 3. 研究细菌基因调控的生物信息资源及操作方案入门 设计一张生物系统丰富多变的图谱,并将之编入正式的数据库管理系统,以及相关的资料收集和数据应用程序的维护是计算机生物学基本努力方向之一。如果你看一下本年度《核酸研究》(Nucleic Acids Research)的第一期,就很清楚了。这一期是数据库专刊。我们没有找到有关基因表达数据库和生物信息学工具的整合收集,所以,我们在这里精心选择了专一于细菌基因表达的资源。基于2008年Galperin收集的提纲,加上大肠杆菌Hub ( http://www.ecolicommunity.org/ )和BIOPAX数据库,我们确认了大约100个(从240个当中)与原核生物基因表达调节有关的不同资源。我们的提纲主要在这些方面:转录因子和基因表达调节(例如,专一于AraC/XylR 家族或转录因子)、RNA、生物学过程和调解网络、微阵列数据库和一些其它的专题,如信号转导途径( http://genomics.ornl.gov/mist/ )、蛋白质与蛋白质之间的相互作用、基因组数据库、发表的文献和metadatabase等。 使用者应该知道我们没有详细说明每种资源最后一次更新的日期,因为这是多变的。这个提纲对那些探查和分析细菌基因组调节特征的人,也该是一种很有用的资源。地址的名字、URL地址、简短的描述和工具列表现在可以在网站 http://regulondb.ccg.unam.mx/Additional_resources.jsp 上查到。 图4 收集单个基因全部调控信息的流程图。图中显示了导航选项,并以基因melA或melR举例说明。图中还显示了MelR-CRP调控复合物。 为了帮助使用者,一些资源上设计了容易执行的文件、指南和演示。另外,致力于数据库建设和维持的生物信息学家还努力设计和启用容易操作的界面。即使这样,对第一次使用的人来说,用最好的途径寻找他们感兴趣的问题时,遇到麻烦也是正常的。让我们以下面的问题为例:“如果我有一个基因,如何找到已知的它的调节信息和操纵子组成呢?”。这个简单的问题可以得到相当复杂和丰富的答案,包括序列、协调、每个单一转录因子的结合位点和这个基因全部启动子的调控作用以及它的操纵子组成等。 图4是一个流程图,它揭示了如何通过几步导航步骤获得这方面的信息。这个例子中,所有一切都发生在RegulonDB范围内。很多其它的资源和数据库能够以不同方式展示同一个信息。例如,PRODORIC基因组浏览器(Genome Browser)就能够在DNA序列水平显示结合位点和启动子。RegulonDB与基因表达工具(GetTools)和调节序列分析工具(RSAT)相链接,并且包含一套预测和可利用的663个微生物和62个真核生物基因组调节区的工具。设计这些工具是用来回答一组可能共调控的基因的所涉及问题,这是一个研究小组完成微阵列实验,或完成染色体免疫共沉淀实验后,遇到的一个普遍问题。图5显示了一个特定基因利用LexA进行染色体免疫共沉淀实验的流程图,如果把基因作为投入,RSAT会生成一些上游序列,然而,RegulonDB中包含一个位点特异性矩阵,这个矩阵来自实验获得的转录因子结合位点(TFBS)的收集。 为了预测基因组上游转录因子结合位点并在图中展示,这个矩阵可以被用来扫描序列。RSAT研究小组为了解释一些相似的问题,刚刚发表了几个计算机协议,这些解释性协议的主要目的就是说明和鼓励生物信息学资源的利用。Defrance等人的工作中,流程图和协议详细说明了如何发现转录因子的结合位点(TFBS),这些转录因子结合位点同RegulonDB中的调节子或其它数据库相同。RegulonDB中报告的大肠杆菌整个调解网络也可以被分析。如果给出普遍表达基因德一套名字,这些基因可以来自微阵列或任何细菌基因组的染色体免疫共沉淀实验,利用RSAT,人们既可以得到其上游序列,也可以搜索常见的基序、转录因子结合位点以及顺式作用元件。 图5 染色体免疫共沉淀资料流程图和具有相似DNA结合位点基序的基因。这个例子来自利用LexA进行染色体免疫共沉淀实验的一个特定基因作为输入。假如染色体免疫共沉淀确定,RSAT用来获得上游序列。LexA的位点特异性矩阵(PSSM)通过选择下载→资料确定→矩阵调整,可以从RegulonDB主菜单上得到。以后,它被粘到RSAT去运行矩阵扫描。如果给出一个标准,这个程序将搜索基因组整个上游区域,寻找推测的位点,并且结果能够被自动获得,且通过利用特征映射程序展现在图中。 EcoCyc中还有很多收集到的图解显示和文本显示,包括一个利用基因本体(ontology)类别显示基因的基因组浏览器、操纵子和基因组某个区域调解基因表达的所有元件,且EcoCyc也可以提供一个调节关系的网络展示;另外,基于一个输入文件,Omics阅读器可以展示过程和调节网络。PRODONET工具( http://www.prodonet.tu-bs.de/ )能够图解展示几个基因组的一套基因。对很多细菌,如果给出一套基因,它们的功能分类也就能够获得( http://www.jprogo.de/ )。一些图解工具可以在基因组范围内显示一个基因在基因组上下文的关系,以及在几个相关基因组中这个基因的同源物的上下文关系,如GeConT或 http://img.jgi.doe.gov/cgi-bin/pub/main.cgi 。听起来有理的问题一定很多。我们邀请感兴趣的读者,通过浏览访问RegulonDB( http://regulondb.ccg.unam.mx/Flow_charts.jsp .),来利用资源的提纲和观看附加的流程图。我们相信用户能够改变,并直觉地找到其它细菌数据库的相同用法。 4. 结论 基因组学使研究的焦点从独立的个体系统转移到了对细胞整体的理解。研究基因调控以及其它几乎所有的现代分子生物学和细胞生物学问题,都需要利用生物信息学的工具和方法,来处理和分析海量的信息,以获得对细胞整体的理解和认识。总体分析转录因子的结合位点以及它们与转录起始的关系,阐明一个形象的个体系统细节与寻找统一的理解的结合,这是一个例子,也就是说基因组的将来可能是机遇,也可能是挑战。用Whitehead的话来说:基因表达调节的整合涉及认真的细节收集和理解的热情。微生物基因表达调节的生物信息学基础建设,需要付出很大的努力来维持和更新,以不断增加的这一方面的信息,这些信息来自于很多实验室常年实验的积累。新的方法论有助于用更加智能的方式管理获得的信息,如计算的方式查询特定的全文语料库,或在EcoliHub( http://www.ecolicommunity.org/ )范围内,科学界对EcoliWiki的分享,还有其它一些方面。细菌基因表达调节的研究无疑对将这个世纪的基因组学具有重大的贡献,如在分子水平了解生命体基本单位-细胞,以及其它潜在的工程学应用。 最近,“组学”研究平台的创新及其开发应用,为推动模式植物和应用植物的研究提供了重要的资源。综合利用多种组学平台和它们的研究成果是当前一种有效的策略,它可以阐明分子系统的整体,提高作物产量。而且,模式植物和应用植物之间比较基因组学的进展,也能够使我们掌握每个物种的特征,并加快基因发现和基因功能分析的步伐。本文综述了植物“组学”研究平台、资源、相关数据库以及相关技术的最新进展。 1. 前言 2. 植物序列资源 3. 变异分析资源 4. 植物转录组资源 5. 植物蛋白质组学资源和平台 6. 代谢组学的平台与资源 7. 表现性状的突变分析 8. 植物比较基因组学和数据库 1. 前言 持续稳定的农业生产是应对全球气候变化和人口增长的迫切需要。进一步说,最近不断增加的对生质燃料作物的需求为农产品开辟了一个新的市场。一个有潜力的解决方法是:在了解基因功能、抗逆性、发育和生长调解网络的基础上,设计植物以提高农作物产量。近来,基因组的研究进展已经可以使人类发现和分离重要的基因,并分析其调节作物产量和抗逆性的功能。 拟南芥整个基因组测序计划完成于2000年(The Arabidopsis Genome Initiative 2000)。随后,美国国家科学基金会(NSF)的拟南芥2010计划启动。该计划的目的是确定拟南芥25,000个基因的功能。现在,每个组学领域的技术进展,已经成为研究影响表型变化相关基因的必不可少的资源。上述进展包括高通量分析大量基因表达谱的方法、鉴定修饰事件和植物基因组的相互作用的方法,以及测量许多代谢产物的方法。此外,大规模生物资源的收集,如大量制造的突变系、全序列cDNA克隆和它们相应的、一体化的数据库等,现在已经都可以为人们所用。粳稻(Japonica rice)基因组计划已于2005年完成。水稻基因组注解计划可以为水稻基因组提供准确注解(International Rice Genome Sequencing Project 2005)。与水稻基因组计划及相关基因组资源结合,作图群体和分子标记资源方面的研究进展可以令科研人员加速分离农艺重要的数量性状基因位点(QTLs)。 最近,上述高通量技术的进步,为特定生物基于序列的资源收集和发展相关的资源平台提供了机会。以现在对拟南芥、水稻和大豆的可用性状况为例,图1是一个相关的组学资源示意图(图1)。每一种经高通量方法检测过的生物元素都通过对应的平面以概念的形式显示出来。其结构层次则从基因组到表型,这个模型称为“Omic Space”。 这种综合的模型不仅可以为实验设计提供良好的起点,还能够在基于特定生物组学知识整合的基础上,产生假设或概念化。此外,不同生物Omic Space和数据的发展,也可以对组学的性能进行比较。进化上一些基因的功能比较保守,上述进展亦有希望为找到相关的间接证据,提供一个有效得途径。为了有效的发掘和整合生物学知识,生物信息学平台已经成为了存储组学数据必不可少的工具。 本综述提供了植物组学研究可以利用的一些代表性资源,尤其是涉及农作物资源的进展。本文还涉及了序列相关的资源,如整个基因组、编码蛋白质和不编码蛋白质的转录物,也提供了最新的测序技术。文章在后面综述了基于遗传作图方法的资源、作图方法,包括QTL分析和群体研究。另外,文章也综述了转录组学、蛋白质组学和代谢组学等当前的资源和技术情况、每一组学领域的综合性程序,及它们们在研究特定生物系统中综合应用的实例,以及表现型研究中的突变资源等。本文最后介绍了植物组学之间的信息整合和比较基因组学的进展情况。 图1 植物的组学空间和相关资源。每种组学资源以拟南芥、水稻和大豆为代表,它们分别是模式植物、模式单子叶和已经测序的农作物,以及作为最近完成测序的重要农作物。这些资源可以从下面的URL和引文中获得。 1. http://www.arabidopsis.org/ ; 2. http://www.gramene.org/ ; 3. http://soybase.org/ ; 4. http://nazunafox.psc.database.riken.jp ; 5. http://rarge.gsc.riken.jp/dsmutant/index.pl ; 6. http://signal.salk.edu/tabout.html ; 7. http://tilling.fhcrc.org/ ; 8. Kolesnik , T. , Szeverenyi , I. , Bachmann , D. , Kumar , C.S. , and Jiang , S. (2004) Establishing an effi cient Ac/Ds tagging system in rice: largescale analysis of Ds fl anking sequences. P lant J . 37: 301-314. 9. http://www.postech.ac.kr/life/pfg/risd/ ; 10. http://tos.nias.affrc.go.jp/ ; 11. http://www.soybeantilling.org/psearch.jsp ; 12. http://mulch.cropsoil.uga .edu/ parrottlab/Mutagenesis/acds/index.php ; 13. http://arabidopsis.org.uk/home.html ; 14. http://abrc.osu.edu/ ; 15. http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp ; 16. http://www .irri.org/grc/GRChome/home.htm ; 17. http://www.legumebase.agr.miyazaki-u.ac.jp/index.jsp ; 18. http://www.plantcyc.org:1555/ARA/server.html ; 19. http://pathway.gramene.org/gramene/ricecyc.shtml ; 20. http://www.plantcyc.org/ ; 21. http://mediccyc.noble.org/ ; 22. http://prime.psc.riken.jp/ ; 23. http://gmd.mpimp-golm.mpg.de/ ; 24. http://ppdb.tc.cornell.edu/ ; 25. http://phosphat.mpimp-golm.mpg.de/ ; 26. http://cdna01.dna.affrc.go.jp/RPD/main_en.html ; 27. http://proteome.dc.affrc.go.jp/Soybean/ ; 28. http://oilseedproteomics .missouri.edu/; 29. http://bioinfo.esalq.usp.br/cgi-bin/atpin.pl ; 30. http://atpid.biosino.org/ ; 31. http://suba.plantenergy.uwa.edu.au/ ; 32. http://proteomics.arabidopsis.info/ ; 33. http://www .brc.riken.go.jp/lab/epd/catalog/cdnaclone.html; 34. http://rarge.gsc.riken.jp/ ; 35. http://cdna01.dna.affrc.go.jp/cDNA/ ; 36. http://rsoy.psc.riken.jp/ ; 37. http://www.arabidopsis.org/portals/expression/microarray/ATGenExpress.jsp ; 38. https://www.genevestigator.com/gv/index.jsp ; 39. http://bioinformatics.med.yale.edu/riceatlas/ ; 40. http://bioinformatics.towson.edu/SGMD/Default.htm ; 41. http://soyxpress.agrenv.mcgill.ca/cgi-bin/soy/soybean.cgi ; 42. http://mpss.udel.edu/at/ ; 43. http://mpss.udel.edu/rice/ ; 44. http://signal.salk.edu/ ; 45. http://rapdb.dna.affrc .go.jp/ ; 46. http://rice.plantbiology.msu.edu/ ; 47. http://www.phytozome.net/ ; 48. http://walnut.usc.edu/ ; 49. http://www.oryzasnp.org/ ; 50. http://www.soymap.org/ ; 51. http://1001genomes .org/ ; 52. http://rarge.gsc.riken.jp/rartf/ ; 53. http://arabidopsis.med.ohio-state.edu/ ; 54. http://datf.cbi.pku.edu.cn/ ; 55. http://drtf.cbi.pku.edu.cn/ ; 56. http://grassius.org/ ; 57. http://soybeantfdb .psc.riken.jp ; 58. http://legumetfdb.psc.riken.jp/ 。 全面地收集序列资源为加速在分子水平上了解生物性能,及提高这种序列资源的应用提供了必需的组学信息。最近,模式植物和农作物及家畜核苷酸序列的积累,为功能基因组学方面建立在序列基础上的研究应用提供了原始的信息。基于全基因组范围内的比较分析和模式植物的信息资源,物种特异性的核苷酸序列收集也为鉴定表型特征的基因组背景提供了机遇。这部分将综述最近植物序列资源的进展。 2.1 基因组测序计划 第一个完成基因组测序的植物是拟南芥。现在它已经成为植物分子生物学研究的模式生物,原因是拟南芥体积小、繁殖时间短和转化效率高。拟南芥基因组序列计划是日本、欧洲和美国科学家共同合作完成的。拟南芥基因组测序计划于2000完成,并由Arabidopsis Genome Initiative(AGI)公布。水稻则是重要的主食性植物,也是单子叶植物的模式植物,粳稻和籼稻的基因组序列草图于2002公布。随后,粳稻基因组序列测定在2005年完成,并由国际水稻基因组测序计划(International Rice Genome Sequencing Project)公布。至今,涉及多种植物的基因组计划已经完成(表1)。 表1 植物基因组计划 通用名 拉丁名 测序组织 网址 双子叶植物 鼠耳水芹 Arabidopsisthaliana consortium (AGI) http://www.arabidopsis.org/ 白杨 Populus trichocarpa JGI http://genome.jgi-psf.org/Poptr1_1/ Poptr1_1.home.html 拟南芥 Arabidopsis lyrata JGI http://genome.jgi-psf.org/Araly1/Araly1.home.html 荠菜 Capsella rubella JGI http://www.jgi.doe.gov/sequencing/why/3066.html 白菜 Brassica rapa consortium (MGBP) http://www.brassica-rapa.org/BRGP/index.jsp 番茄 Solanum lycopersicum consortium (ITGSP) http://solgenomics.net/ 马铃薯 Solanum tuberosum consortium (PGSC) http://www.potatogenome.net/index.php/Main_Page 苜蓿 Medicago truncatula consortium (IMGAG) http://www.medicago.org/genome/ Lotus japonicus Consortium http://www.kazusa.or.jp/lotus/ 猴面花 Mimulus guttatus JGI http://www.jgi.doe.gov/sequencing/why/3062.html 大豆 Glycine max JGI http://www.phytozome.net/soybean.php 棉花 Gossypium hirsutum JGI 木薯 Manihot esculenta JGI http://www.phytozome.org/cassava.php 葡萄 Vitis vinifera Consortium http://www.genoscope.cns.fr/externe/ GenomeBrowser/Vitis/ 耧斗菜 Aquilegia Formosa JGI http://www.jgi.doe.gov/sequencing/why/51280.html 巨桉 Eucalyptus grandis JGI http://bioinformatics.psb.ugent.be/genomes/ view/Eucalyptus-grandis 番木瓜 Carica papaya Consortium http://asgpb.mhpcc.hawaii.edu/papaya/ 蓖麻子 Ricinus communis 美国遗传学研究院(TIGR) http://castorbean.jcvi.org/ 黄鹰苜蓿 Triphysaria versicolor 单子叶植物 粳稻 Oryza sativa japonica 国际水稻基因组测序计划consortium (IRGSP) http://rgp.dna.affrc.go.jp/E/IRGSP/index.html 籼稻 Oryza sativa indica 北京基因组中心 http://rice.genomics.org.cn/rice/index2.jsp 玉米 Zea mays Consortium http://www.maizegdb.org/ 高粱 Sorghum bicolor JGI http://genome.jgi-psf.org/Sorbi1/Sorbi1.home.html Brachypodium distachyon JGI, Consortium (IBI) http://www.brachypodium.org/ 二穗短柄草 Brachypodium distachyon JGI whole genome shotgun 粟 Setaria italica JGI whole genome shotgun 小果野芭蕉 Musa acuminate Consortium 小麦 Triticum aestivum 国际小麦基因组测序协会consortium (IWGSC) http://www.wheatgenome.org/ 大麦 Hordeumvulgare 国际大麦测序联盟Consortium (IBSC) http://www.public.iastate.edu/~imagefpc/IBSC%20 Webpage/IBSC%20Template-home.html 其它 小立碗藓 Physcomitrellapatens JGI http://genome.jgi-psf.org/Phypa1_1/ Phypa1_1.home.html 具芽的植物穗苔 江南卷柏 Selaginella moellendorffii JGI http://genome.jgi-psf.org/Selmo1/Selmo1.home.html 红藻 Cyanidioschyzon merolae Consortium http://merolae.biol.s.u-tokyo.ac.jp/ 植物基因组测序和注解获得了很多资助。Phytozome是一个可利用的网络信息资源。它提供了不同植物基因组的序列和注解信息。这个资源也是美国能源部联合基因组研究所(DOE-JGI)和综合基因组学中心联合的一个计划( http://www.phytozome.net/Phytozome_info )。它旨在促进各种绿色植物的比较基因组研究。Phytozome当前的版本(版本5.0,2010年1月)包含18种由美国能源部联合基因组研究所和其它生物测序计划测序的植物。Gramene是有关草种植物信息资源的门户网站,它可以提供很多种草本植物基因组的信息,包括基因组序列。Gramene当前的版本(版本30,2009年10月)提供了15种植物的资源,其中包括5种野生水稻基因组序列组装的信息。 根据Entrez基因组计划数据库( http://www.ncbi.nlm.nih.gov/sites/entrez?db=genomeprj )提供的数据,到2009年11月,该数据库追踪了150多种绿色植物的基因组计划事件,其中包括一些重要的农艺作物,如提供主食的作物、果树、药用植物和绿色藻类等。随着新一代测序技术的不断创新,基因组测序信息公布的速度有望进一步加快。全基因组序列的信息,帮助我们揭示了一些重要基因组特征,包括确认蛋白质编码基因和非蛋白质编码基因,再如基因家族、调控元件、重复序列、简单重复序列(SSR)和GC含量等。 上述数据集已经成为了以基因组序列为基础,进行平台设计的原始序列材料,如微阵列、tiling arrays或分子标记等,也成为了将组学元件整合入基因组序列的参考资料集。染色质水平比较鉴定基因协同的相似性,有助于相关物种中片断重复和串联重复文件的编制。全基因组比较鉴定染色质重复和相关物种保守的共线性,则为相关谱系分化的系统进化假说提供了证据。 2.2 表达序列标签和cDNA克隆的大规模收集 表达序列标签(EST)是在随机选取的基因转录物反转录成cDNA后,进行一轮部分测序得到的。因为无论基因组多复杂,cDNA 和EST均可以收集,所以这种方法的应用已经扩展到了模式生物和一些基因组较大的植物,这些大的基因组或者是多倍体,或者是序列重复导致。到2009年11月,美国国家生物技术信息中心(the National Center for Biotechnology Information,NCBI)的DbEST数据库储存了6300多万个EST。DbEST是一个公共的EST数据库( http://www.ncbi.nlm.nih.gov/dbEST/ ),它涉及了很多的植物(表2)。 表2 植物EST和统一转录物的数量(2009年11月) 植物 EST数量 (dbEST) 条目数(UniGene) 小立碗藓: Physcomitrella patens 382,584 18,870 白云杉: Picea glauca 299,455 22,472 北美云杉: Picea sitchensis 175,662 18,838 北美云杉: Pinus taeda 328,628 18,921 耧斗菜 : Aquilegia formosa x Aquilegia pubescens 85,039 8,046 Arabidopsis thaliana 1,527,298 30,579 黄花蒿: Artemisia annua 85,402 9,462 甘蓝: Brassica napus 643,601 26,733 花椰菜: Brassica oleracea 59,946 5,617 冬油菜: Brassica rapa 44,570 14,497 辣椒: Capsicum annuum 116,541 8,868 莱门柚: Citrus clementina 118,365 9,123 脐橙: Citrus sinensis 208,909 15,808 大豆: Glycine max 1,422,604 33,001 陆地棉: Gossypium hirsutum 268,786 21,738 雷蒙德氏棉: Gossypium raimondii 63,577 3,297 向日葵: Helianthus annuus 133,682 12,216 莴苣: Lactuca sativa 80,781 7,940 百脉根: Lotus japonicus 195,385 14,493 栽培苹果: Malus x domestica 324,308 23,731 蒺藜苜蓿: Medicago truncatula 269,237 18,098 烟草: Nicotiana tabacum 317,190 24,069 欧洲山杨: Populus tremula 美洲山杨: Populus tremuloides 76,160 9,652 黑杨: Populus trichocarpa 89,943 14,965 紫叶桃: Prunus persica 79,203 7,620 野萝卜: Raphanus raphanistrum 164,119 18,788 萝卜: Raphanus sativus 83,034 17,649 番茄: Solanum lycopersicum 296,848 18,228 马铃薯: Solanum tuberosum 236,568 18,784 可可树: Theobroma cacao 159,320 24,958 豇豆: Vigna unguiculata 187,443 15,740 葡萄: Vitis vinifera 357,856 22,083 江南卷柏: Selaginella moellendorffii 93,806 8,810 大麦: Hordeum vulgare 501,614 23,595 水稻: Oryza sativa 1,249,110 40,978 柳枝稷: Panicum virgatum 436,535 20,973 甘蔗: Saccharum officinarum 246,892 15,594 高粱: Sorghum bicolor 209,814 13,899 小麦: Triticum aestivum 1,067,290 40,349 玉米: Zea mays 2,018,798 97,123 莱茵衣藻: Chlamydomonas reinhardtii 204,076 11,310 团藻: Volvox carteri 132,038 5,638 由于从一个特定生物cDNA文库中收集到的EST数据含有来自相同基因位点或转录单位的冗余序列,所以在进一步研究之前,有必要根据转录单位将EST数据进行分类和组装,以获得综合性的校准和每个转录物的典型序列。这些过程可以通过计算机实现。一个典型的工作流程包括碱基测定(base-calling),如通过转换测序仪输出的图形来鉴定核苷酸序列;下一步是清理,这一步涉及鉴定、去除被污染的序列以及去除来自克隆载体序列的掩蔽、同一序列的聚类和群组序列的排列等。这时得到的转录物的数据集可以作为统一的转录物数据来使用。其它有一些数据资源也可以提供植物数据,如NCBI-UniGene、植物基因组数据库(PlantGDB)和TIGR Plant Gene Index and HarvEST。 全面和迅速的cDNA克隆积累,及它们海量的序列标签资料集已经成为了功能基因组学重要的资源。来自不同组织的EST,包括来自不同发育阶段的器官组织,或来自逆境胁迫条件下的组织,都能够大大促进基因的发现、基因结构的注解、大规模表达分析、物种内和物种间表达基因在基因组学水平的比较分析、针对基因的分子标记设计,以及微阵列探针设计等。 2.3 全长cDNA计划 因为现在流行的制备cDNA文库的方法并不能提供全长cDNA克隆,所以虽然部分cDNA对迅速创建表达基因目录很有帮助,但它们对进一步研究基因的功能不太适合。于是大约10年前,Hayashizaki等人发展了生物素化Cap-trapper法,这个方法利用的是经海藻糖热稳定化的反转录酶,同时这个方法也是目前全长cDNA文库构建的最有效方法之一。全长cDNA文库和大规模的克隆序列数据集,已经成为了生命科学研究不同物种的宝贵资源。 在基因组测序全部完成或构建基因组草图后,来自全长cDNA的序列资源也可以帮助鉴定基因组转录区。在拟南芥和水稻中,全长cDNA序列已用于识别基因组结构特征,如转录单位、转录起始位点和转录变异等。在已经绘出基因组框架图的物种中,如小立碗、大豆和杨树的全长cDNA克隆已经被测序,旨在帮助巩固基因组的基础结构研究,同时也有助于基因的发现(表3)。全长cDNA克隆也有助于鉴定原来用X射线晶体学和核磁共振光谱(NMR)技术得出蛋白质的三维结构,和有助于在蛋白质-配体、蛋白质-蛋白质和蛋白质-DNA相互作用的条件下对表达蛋白的功能进行生化分析。 表3 植物中大规模收集的全长cDNA 植物 数据库 拟南芥: Arabidopsis thaliana http://rarge.gsc.riken.jp/ 柑橘属: Citrus species 日本柳杉: Cryptomeria japonica 中国大豆: Glycine max http://rsoy.psc.riken.jp/ 低植酸大麦: Hordeum vulgare http://www.shigen.nig.ac.jp/barley/ 木薯: Manihot esculenta http://amber.gsc.riken.jp/cassava/ 普通野生稻: Oryza rufipogon 粳稻: Oryza sativa ( japonica ) http://cdna01.dna.affrc.go.jp/cDNA/ 籼稻: Oryza sativa ( indica ) http://www.ncgr.ac.cn/ricd 小立碗藓: Physcomitrella patens http://www.brc.riken.go.jp/lab/epd/ catalog/p_patens.html 杨树: Populus nigra http://rpop.psc.riken.jp/index.pl 毛果杨: Populus trichocarpa 盐芥: Thellungiella halophila 小麦: Triticum aestivum http://trifldb.psc.riken.jp/ 玉米: Zea mays http://www.maizecdna.org/ 此外,蛋白质组学的最新进展需要含完整长度氨基酸序列的全面数据资料集,以有助于将肽链组装到蛋白质中。 这些进展也使功能注解成为必要,目的是为其它研究提供系统的信息,如为了已鉴定的蛋白和修饰残基(如磷酸化的残基),或为了物种间修饰事件比较分析的整合。全长cDNA文库也对在反向遗传系统中创建过表达系以进行功能分析很有益处。这种基于功能鉴定基因的方法的出现,为高通量鉴定影响表型变化的基因,提供了一个有效的方法,如全长 cDNA overexpressor(FOX)基因搜寻法,这个方法利用了转全长 cDNA的植物作为过表达的研究对象。 最近,研究人员又建成了未测序作物和林业植物的全长cDNA文库,如小麦(Triticum aestivum)、大麦(Hordeum vulgare)、木薯(Manihot esculenta)、日本柳杉(Cryptomeria japonica)和云杉(Picea sitchensis)以及一些表现出特殊生物学特征的植物,如耐盐的盐芥(Thellungiella halophila)(表3)。通过与模式植物(如拟南芥、水稻和杨树)比较靶序列,这些全长cDNA文库已经被用于鉴定植物的生物学特征。这些文库也已经作为原始的序列资源,使人们得以设计微阵列探针和作为克隆资源,供改善作物效益的基因工程技术使用。 由于全长cDNA文库资源在组学研究方面具有重要作用,有必要整合这些相关资源,以为这些资源提供入口,或整合从其它组学及物种研究得到的资料。 2.4 超高通量DNA测序 在过去10年,桑格DNA测序方法已经被人们广泛利用来完成了一些微生物和较高等真核基因组的基因组测序。近年来,一些替代的DNA测序方法已被采用,如焦磷酸测序方法、大规模并行的DNA测序法或单分子DNA测序法。这种新的测序技术为我们在基因组整体水平进行比较基因组学、宏基因组学和进化基因组学等相关领域的研究提供了新的方法。 2.5 全基因组测序 新一代测序技术,加上可供参考的基因组序列数据,使我们能够发现个体之间、菌株和/或种群之间的差异。通过对照序列片断和特定基因组的参考资源,很容易鉴定出核苷酸的多态性,而核苷酸多态性又在基因组研究中具有重要作用。旨在发现1001株拟南芥(后进入)全基因组变异的全基因组重测序计划将成为重要的基础知识资源,并促进将来的遗传学研究,以鉴定在整个物种范围内和整个基因组范围内,影响表型差异的等位基因( http://1001genomes.org/ )。通过利用Illumina Genome Analyzer测序方法得来的全基因组重测序资源和对重组群体进行高通量基因分型的方法在水稻中也已经得以应用。下一代测序技术中,最令人期待的创新之一,就是能够用来对整个基因组进行从头测序。虽然到目前为止,这种方法只在细菌基因组实现了,但为能够在更高等的物种应用这项技术,研究人员已经进行了若干的相关尝试。 2.6 综合寻找和发现小RNA 植物中,sRNA,包括微小RNA(miRNA)、小干扰RNA(siRNA)和反式作用的siRNA(ta-siRNA)都具有重要作用。它们可以充当表观遗传修饰的组分,也可以成为调节植物发育和动态平衡的基因网络的一部分。这些RNA分子应该是全面鉴定的重要目标,它们的表达情况应该利用下一代基因组技术进行分析。有人通过Illumina’s sequencing-by-synthesis(SBS)技术对玉米野生型和相同基因(mop1-1 l)功能丧失突变型个体的sRNA进行了序列测定分析,目的是发现玉米sRNA 的互补特征。人们利用高通量的Roche 454 焦磷酸测序技术在杨树的叶片和营养芽中也发现了sRNA,随后又鉴定出了miRNA基因家族,其中也包括一些新的miRNA基因家族。二穗短柄草(Brachypodium)的全基因组水平的进一步测序完成以后,人们得到了涉及低温胁迫的miRNA。植物miRNA数据库中,植物miRNA的有用资源( http://bioinformatics.cau.edu.cn/PMRD/ )可以通过上述网址进入。 最近DNA测序技术的创新、基因组和cDNA序列资源的迅速增长,使我们能够设计出多种类型,且能够覆盖整个基因组的分子标记。为了高通量的基因分型,人们已经开发了多种研究平台。这些平台曾经用于遗传图谱构建、分子标记辅助选择和多个分离群体的QTL克隆分析。这种基因分型系统也已经被用于后基因组计划,诸如遗传资源基因分型计划,如果再加入评估群体结构及其相关研究,就可以确定物种表型改变所涉及的基因位点。最近,这种在基因组水平分析处理多态性平台的扩展为植物“变异组学”研究提供了必要的信息资源。 3.1 分子标记 可用的遗传标记的积累及它们饱和,有助于促进分子标记辅助遗传的研究,同时也是具广泛的应用范围的重要资源。设计广泛涵盖基因组的遗传标记,不仅可以通过利用QTL分析,识别涉及复杂性状相关的单个基因,还也可以探索与自然选择有关的遗传多样性扩增。随着不同物种基因组测序和大规模EST序列分析的进展,这些资料集已经成为了设计分子标记所需的重要资源。利用积累的数据集序列来设计多态性的分子标记在好几个物种中进行了尝试。基于粳稻和籼稻基因组序列的一些水稻(Oryza sativa)DNA多态性数据集已经构建完成 。大规模EST数据集也是发现序列多态性的重要资源,尤其是将表达的基因定位到一张遗传图谱上。因此,为了鉴定序列标签位点(sequence-tagged site, STS),人们已在一些物种中进行计算以发现ESTbase单核苷酸多态性(SNP)和/或发现识别EST-SNP标记。目前这些研究已经在一些物种,如在大麦、小麦、玉米、西瓜、甘蓝、菜豆和向日葵等中取得了一些进展。 有几个数据库可以提供关于植物的分子标志物的信息。PlantMarkers数据库是一个遗传标记数据库,其中包含来自不同物种的预测的分子标记,如单核苷酸多态性、SSR标记和保守的同源集(COS)标记。GrainGenes是麦类基因组学一个受欢迎的网站。它提供了有关小麦、大麦、黑麦和燕麦的遗传标记和连锁图谱数据。Triticeae Mapped EST database(TriMEDB)则提供了关于大麦及其同源小麦的cDNA标记图谱。 3.2 变异分析平台 高通量基因多态性分析是一个重要的工具。它能够促进任何以遗传图谱为基础的研究方法。单核苷酸多态性以杂交为基础,到目前为止,建立在该法上的全基因组基因分型技术,已被用于分析具代表性拟南芥生态型和水稻品种,而包括每个品种全基因组预测变异的数据集也已经公布。以拟南芥1001计划为代表,基因组范围内变异的研究是一个关键的解析过程,这应该在一个特定参考株系的基因组计划完成后实施。所以,对高通量、且低本高效的变异分析(也称变异组学)平台的要求被迅速提高了。 正如前面已经提到的,如果物种的参考基因组数据库可用,那么全基因组重测序方法就可作为变异分析的直接方法。基于微阵列平台( http://www.diversityarrays.com/index.html )开发的多态性芯片(Diversity array technology, DArT)是一种高通量的基因分型系统。在各种作物,如小麦、大麦和高粱中,DArT标记和传统的分子标记已经被用来构建密度更高的遗传图谱,和/或进行相关的研究。在大麦和小麦中,Affymetrix基因芯片已经用于分析单核苷酸多态性。Illumina基因芯片可以同时分析96个样品的1536个SNP。在一些作物,如大麦、小麦和大豆中,它已经被用于分离群体的基因型分析,以构建分布有SNP标记的遗传图谱。 综合性和高通量的基因表达分析,又称为转录组分析,它是一个重要的分析方法,可以用来筛选候选基因、预测基因功能和寻找顺式调控元件。人们通过杂交方法,如微阵列和基因芯片分析,已获得了不同物种的大量的基因表达谱。最近,含大规模基因表达谱并快速积累的数据集,以及支持如此庞大信息可用性的相关数据库已经在公众域为我们提供了大量可用的信息资源。这些公共领域的数据对很多二级用户来说很有效也很宝贵,如共表达和比较分析的资源。此外,作为新一代DNA测序技术,小片段表达RNA的深入测序,包括sRNA测序正迅速成为有效应用工具。 4.1转录组学的序列标签平台 大规模测序来自cDNA文库的EST,是早期获得转录组表达谱的方法。这种方法中,在无偏向性的cDNA文库里,随机测序得到的EST被利用序列聚类或/和序列组装的方法分成转录序列簇。然后,每种组织中转录物的丰度通过计算EST的数量来衡量。EST上含有每种基因组文库和/或每一个序列簇的识别标记。相同的原理已经以“body map”的方式用于分析人类和小鼠中来自不同器官的转录组。此外,这一原理也被用在数字差异显示(DDD)工具中,它是NCBI’s UniGene数据库的组分,也已经被用于包括植物在内的不同生物的大规模cDNA计划。虽然这种方法,可以偶联cDNA克隆资源,并促进了基因的发现和表达谱的分析,但它也有缺点,如成本高、受大规模的测序影响以及分辨率受到限制。 基因表达系列分析(Serial Analysis of Gene Expression, SAGE)是基于短可读cDNA标签深度测序技术(Deep Sequencing)的一种序列分析方法。SAGE可以鉴定组织中存在的大量转录物,并能够比较转录物的丰度。SAGE设计产生一些13到15 bp的大小的特异性标签,这些标签来自样品mRNA的3′末端。以后大于10 bp的标签被连成一串,并克隆形成SAGE文库。从SAGE文库中选取克隆进行测序,可以有效收集转录标签序列。基因组序列数据集和大规模的EST是鉴定对应于SAGE标签的基因时所必需的。一些的衍生的分型方法,如MAGE、SADE、microSAGE、miniSAGE、longSAGE、 superSAGE、deepSAGE和5′ SAGE等已经开发来提高和拓宽SAGE的实用性。例如,超级基因表达分析(SuperSAGE)就是SAGE的改进版本,从cDNA获得26 bp的片段标签的方法已经被用来同步定量分析水稻细胞及其它的真核病原体的基因表达谱。26 bp的superSAGE片段标签也被用来直接为寡聚微阵列设计探针。 另一个以测序为基础的技术是大规模平行测序技术(massively parallel signature sequencing, MPSS)。MPSS采用独特的方法来定量测定基因的表达水平。它通过用“微球状阵列”(Microbead Array)新技术测序cDNA 3′端16-20 bp的核苷酸链。在每个文库中,它可以产生数以百万计的短序列标签。包含植物(如拟南芥、水稻、葡萄和稻瘟菌在内的MPSS数据库已经可以网上查询( http://mpss.udel.edu )。另外,MPSS方法也已经被用于进行在基因组规模上探索和谱剖析拟南芥和水稻sRNA的表达。CT-MPSS是最近研发的定量分析转录物5′末端的技术,同时又和全基因组克隆的cap-trapper法联系起来。该方法已应用于高密度定位拟南芥的转录起始位点(TSS),旨在基因组水平搞清楚植物的启动子。拟南芥CT-MPSS标签的数据集可以在ppdb(Plant Promoter Database)( http://www.ppdb.gene.nagoya-u .ac.jp )获得。ppdb是一个植物启动子数据库,它可用提供拟南芥和水稻的启动子注解。 4.2 转录组学的杂交平台 DNA微阵列的历史开始于1995年斯坦福大学P. O. Brown实验室的一份报告。从那时起,基因芯片和基因芯片相关技术有了长足的进步,其应用已扩大到生命科学的多种学科。DNA微阵列或基因芯片分析的原理是:通过与作为探针而置于玻璃或硅芯片上的大量DNA分子进行杂交,获得一个给定样品的全面数据集。 DNA芯片可以分为两种主要类型: (i) 点样型,这是在斯坦福大学开发的; (ii) 基于探针制备的“芯片上合成型”。 点样型曾经广泛应用于转录组研究的最初几年,这种方法必需通过将cDNA溶液点在玻璃上来准备DNA微阵列。芯片上合成型是一种光导原位合成(light-directed synthesis)过程,它将固相化学合成和光引导化学合成技术结合起来。最初,这种方法只与Affymetrix公司制造的基因芯片阵列系统的结合。在Affymetrix公司的基因芯片系统中,一个已知的基因或潜在的表达序列以11~20个寡聚核苷酸探针呈现在芯片上,每个探针长25个碱基。Roche NimbleGen 和Agilent Technology提供平台,来合成高密度寡核苷酸微阵列,这些微阵列分别基于Roche专有的无掩膜的阵列合成器(maskless array synthesizer, MAS)和非接触式工业喷墨印制工艺,这两种方法也用于原位寡聚核苷酸的合成。 随着在全基因组测序物种数量和/或大规模cDNA克隆数量的增加,人们开发出了很多DNA微阵列,并利用它对多种植物进行转录组分析。例如,Seki等人设计了常规DNA芯片。他用拟南芥7000个全长cDNA克隆作为探针,采用双色法扫描了与非生物胁迫相关的基因。随着商用DNA芯片的增加,许多实验室开始使用特定的DNA芯片设计获取转录组数据,旨在为特定物种的转录组积累更全面的资源。集多国力量于一体的AtGenExpress已经帮助人们揭示了拟南芥的转录组信息。AtGenExpress收集的信息数据集已经成为目前拟南芥转录组最全面的资源。 NCBI的GEO(Gene Expression Omnibus)数据库和欧洲生物信息学研究所(European Bioinformatics Institute, EBI)的 ArrayExpress数据库在公共领域一直是转录组学主要的资料库。此外,还有一些更专一的数据库可以提供转录组预测资料和探针注解,且数据库具有容易使用的界面。ATTED-II是一个提供基因共表达分析资料的数据库,其资料来自于公众可利用的拟南芥ATH1芯片资料的预测。产生自全面收集转录组数据的共表达分析数据集已成为一个有效的资源,它可以促进发现表达方式密切相关的基因。Genevestigator( https://www.genevestigator.com/gv/index.jsp )是一个查询基因表达的数据库和荟萃分析(Meta-analysis)系统,它可以提供很多实验室关于不同植物研究的摘要信息和可解释的结果,其中植物包括拟南芥、大麦和大豆。 电子荧光象形文字(EFP)浏览器可以提供从拟南芥、杨树、苜蓿、水稻和大麦搜集到的基因表达方式的资料,它在互联网有一个容易查询的界面( http://www.bar .utoronto.ca/ )。拟南芥基因表达数据库AREX可以提供高解析度的拟南芥根部基因的表达方式( http://www.arexdb.org/index.jsp )。RICEATLAS数据库则是一个涵盖水稻各类组织的转录组数据库。 Tiling array是覆盖某一生物整个基因组的高密度寡核苷酸探针,是分析整个基因组表达区域的平台;它也是发现新基因并阐明其结构的一种有效方法。Seki等人利用全基因组tiling array技术完成了拟南芥非生物胁迫条件下的转录组分析工作,并发现了一些胁迫诱导的反义转录物。At-TAX(A. thaliana Tiling Array Express)是拟南芥全基因组tiling array资源,它可用于研究拟南芥发育分析和转录物鉴定。tiling array平台通过偶联免疫方法而获得扩展。例如AGAMOU-Like15(AGL15)是一个有MADS结构域的转录调节因子,它可促进体细胞胚发生。研究人员利用染色质免疫沉淀技术(Chromatin Immunoprecipitation, 简称ChIP)与拟南芥Affymetrix tiling array相结合从而鉴定出 AGL15的结合位点。这个方法发现了大约2,000 个相关位点。甲基化免疫沉淀(MCIP)与拟南芥Affymetrix tiling array相结合,构建了拟南芥基因组较全面的甲基化图谱。它可作为拟南芥甲基化数据集。使用新一代测序仪可以测序共沉淀的DNA和蛋白质。现在,染色质免疫沉淀-测序(ChIP-Seq)已经成为了一种可行的替代办法。 因为一些生物的基因组测序计划已经完成,所以详细研究蛋白质功能、功能网络和3D结构的蛋白质组学越来越引起人们的关注。获得的大量蛋白质组学数据对研究细胞内的蛋白质功能非常重要,这些功能通过蛋白质在细胞内进行动态变化控制。上述功能又通过生长、发育和对环境的应激反应出细胞或组织的状态。功能蛋白质组学的初始目标是鉴定细胞或组织中的全部蛋白质,近来蛋白质研究中的技术进展(如蛋白质分离和纯化的方法、质谱技术的进展和蛋白质纯化的理论)已经能够使得我们进入了第二代功能基因组学,这包括定量蛋白质组、亚细胞蛋白质组学和鉴定蛋白质之间各种各样的相互作用等。网络可以利用的植物蛋白质组学数据库在多国拟南芥指导委员会(Multinational Arabidopsis Steering Committee,MASC) ( http://www.masc-proteomics.org/ )可以获得,MASC则归在“蛋白质数据库和资源”里。 5.1蛋白质组剖析 典型的蛋白质组剖析的实验工作流程可以概括为:蛋白质样品制备、分离、检测和鉴定。每一步的技术进步都大大提高了植物蛋白质组学的进展。 样品制备是在任何蛋白质组学实验中都非常关键的一步。三氯乙酸(TCA)和丙酮是最常用的蛋白质沉淀试剂,另外苯酚和NH4OAC/MeOH也在植物组织试验中经常使用。样品分离有效地提高了蛋白质鉴定效果、减少了样品的复杂性,也增加蛋白质组的覆盖面。序贯增溶是基于溶解度、分子质量和等电点进行蛋白质样品分离的有效方法。通过利用不同的试剂系列分离溶解度不同的蛋白,可以减少蛋白质的复杂性。 一维的SDS-PAGE已被广泛用于利用分子质量不同来分离复杂的蛋白质的实验中。双向凝胶电泳(2-DE)相对为一种高分辨率的蛋白质分离技术,它使用等电聚焦(isoelectric focusing,IEF)为第一维电泳,第二维电泳是SDS-PAGE电泳。此外,固相pH梯度等电聚焦(IPG-IEF)电泳作为第一维等电聚焦电泳后的发展,提高了实验的重复性和分辨率。双向电泳已被广泛应用于不同物种蛋白质组学的研究。目前人们已研发了存储2-DE电泳信息的数据库,如生物信息学瑞士研究所的2D-PAGE数据库( http://au.expasy.org/ch2d/ )和日本Kazusa DNA Research Institute`Cyano2Dbase ( http://bacteria .kazusa.or.jp/cyano_legacy/Synechocystis/cyano2D/ index .html )。基于色谱层析基础的分离方法有凝胶过滤层析、离子交换层析和亲和层析分离,它们都是能够有效分离蛋白质的方法。 为了鉴定样本中发现的每个蛋白质,肽质量指纹图谱已被广泛采用。目前最有效的方法可分为两个步骤: (1)酶消化分离蛋白质使之成小的肽; (2)使用质谱(MS)精确测量肽的质量。 在凝胶消化方法中,2-DE已被广泛用于分离蛋白质样品。凭借这方面快速的技术进步,质谱(MS)将继续发挥其在蛋白质组学方面的重要作用。质谱设备由以下成分组成:电离的检测样品和质谱仪。后者可用于检测样品。在蛋白质组学,通常是基质辅助激光解吸电离(MALDI)方法或电喷雾电离(ESI)的方法被应用来电离样品肽。MALDI法通常结合飞行时间(TOF法)形成MALDI-TOF质谱;而电喷雾质谱法,通常是在与四极 (Q)和离子阱结合使用。最近,其它质谱技术,如Q – TOF质谱、IT-TOF 质谱或MALDI – TOF的应用都已经非常广泛。此外,离子碎片碰撞诱导解离(CID)使用的串联质谱,如Q-TOF质谱或源后衰变(PSD)使用的MALDI-TOF质谱已广泛应用于确定肽的氨基酸序列。 除了传统的凝胶电泳分离,非凝胶分离方法也往往被使用,特别是在“鸟枪蛋白质组学”中。在非凝胶分离方法中,蛋白质混合物直接消化成肽并利用多维分离方法分离。多维分离方法是不同分离方法的组合,包括网上的多维蛋白质鉴定技术(MudPIT)。鸟枪法适合于分析2-DE难以分开的蛋白质,并适合于高通量的自动化分析仪器。 傅立叶变换离子回旋共振质谱(FT-ICR MS)具有很多优点,如高分辨率、高灵敏度、高动态范围和测量质量的高精度。FT-ICR MS的高分辨率和质谱精度允许我们进行“自上而下的蛋白质组学”,也就是一个完整的蛋白质混合物无需经分离可直接分析。 5.2 定量蛋白质组学 完整的蛋白丰度量化,对我们更好地了解在调节细胞的状态和响应环境变化时的蛋白质动力学非常重要。此外,蛋白质的定量对发现关键蛋白质的变化,包括表达、相互作用和蛋白质修饰等也有重要意义,这也对发现基因变异和表型变化有关。 差异凝胶电泳技术(differencegel electrophoresis,DIGE)建立在双向电泳技术的基础上。它能够在同一块双向电泳胶中分离多种样品。Jonathan实验室最先使用这项技术,后来被 Amersham Biosciences 公司进一步优化并市场化。由于差异凝胶电泳技术可在同一块胶中进行两个蛋白质样品差异的检测与定量,从而避免了传统双向电泳技术胶与胶之间重复性差的缺陷。差异凝胶电泳是一种以在双向电泳前先对蛋白样品进行荧光标记为基础的荧光染料标记的方法。它分为两种:最小标记法和饱和标记法,其中最小标记法较为常用。 同位素亲和标签ICAT(isotope coded affinity tag)技术、同位素标记相对和绝对定量(isobaric tags for relative and absolute quantitation,iTRAQ)技术和稳定同位素氨基酸的体内标记(stable isotope labeling with amino acids in cell culture,SILAC)技术也已经广泛应用于蛋白质的定量分析。 同位素标记相对和绝对定量技术是近年来最新开发的一种新的蛋白质组学定量研究技术。它具有较好的定量效果、较高的重复性,并可对多达四种不同样本同时进行定量分析。利用SILAC技术,研究人员可以对一个样品进行两种不同分子量的标记,并且进行同时分析,这样获得的数据就精确可靠多了,这种“质量标签”在质谱仪读出的数据中将实验组样品与对照组样品分离开来。近年来科学工作者提出了一种新的不依赖于同位素标记的基于液相色谱串联质谱的非标记定量技术(Label-free quantitative technology based on liquid chromatography tandem mass spectrometry, Label-free LC MS/MS),并被越来越多的研究者认可。现有的基于质谱的非标记定量技术主要有两种:基于一级质谱信息和基于二级质谱信息的技术。前者的依据是与一级质谱相关的肽段峰强度(Mass spectral peak intensity)、峰面积(Peak area)、液相色谱保留时间(LC retention time)等信息,后者的依据是与二级质谱相关的每个蛋白质鉴定到的肽段总次数(Peptide hits或Spectral counts)、所鉴定肽段的离子价位(Ion counts of identified peptides)等信息。 William M. Old等人比较了两类非标记定量技术的优缺点,但截止目前,label-free定量技术还在起步阶段。总的来说,非标记定量技术不需要同位素标签做内部标记,具有经济、高通量和省时省力等优点,在蛋白质组学领域开始兴起。然而这种技术比较依赖于仪器的状态、样品的复杂性以及一些未知因素,用这些非标记定量技术去有效分析实际样品差异的工作还不是很多。尽管如此,由于其特有的优势,科学工作者还是不断的发展和完善这些非标记定量技术,相信这些非标记定量技术将会得到越来越多的应用。 5.3 亚细胞蛋白质组学 细胞器的大规模蛋白质组分析是必不可少的,这可以使我们了解细胞器的酶量、膜结构分割的代谢途径、蛋白质标记、转运和调节,以及在细胞器水平的蛋白质动力学。若干方法已适用于分析如叶绿体、质体(etioplasts)、淀粉体、杂色体(Chromoplasts)、线粒体、液泡、质膜、细胞核、过氧化物酶、核糖体、植物细胞的细胞壁或细胞器的亚细胞蛋白质组等。叶绿体、线粒体和进一步的分离的蛋白质组学分析已经开始,以确定亚细胞结构中的蛋白质。定量蛋白质组学,如上面提到的同位素亲和标记(ICAT)和同位素标记相对和绝对定量(iTRAQ)技术,都对获得在每个细胞器蛋白质组定量数据非常有用。有人已经对拟南芥、水稻和藻类的质膜蛋白质组差异进行了分析,以确定在应对环境因素,如冷驯化、盐胁迫和细菌时,蛋白质方面的差异。几个数据库提供了亚细胞蛋白质组的信息。水稻蛋白质组数据库( http://gene64.dna.affrc.go.jp/RPD/ )是一种用于水稻2-DE图像的数据库。它包含来自不同组织的数据以及细胞器的数据。诺丁汉拟南芥联合中心(The Nottingham Arabidopsis Stock Centre,NASC)的蛋白质组学数据库( http://proteomics.arabidopsis .info/ )和拟南芥蛋白亚细胞定位数据库(SUBA)( http://suba.plantenergy.uwa.edu.au/ )提供了拟南芥亚细胞蛋白质组分的析数据。大豆蛋白质组数据库( http://proteome .dc.affrc.go.jp/cgi-bin/2d/2d_view_map.cgi )也提供了各种组织的2 – DE数据。 构成生物体的组织和细胞结构非常复杂,其内部的蛋白质组成种类繁多、性质多样、丰度差异大,常规方法有时不能够分离组织和细胞内的全部蛋白质,而利用蛋白质组学技术分离有时会丢失大量的蛋白质信号。因此,以亚细胞分级和蛋白质组学的融合而诞生的亚细胞蛋白质学在细胞生物学和分子生物学的研究中有着更深远的意义。 5.4 蛋白质翻译后修饰 全面的探讨各种蛋白质翻译后修饰也是目前蛋白质组学研究的一个关键的内容。蛋白质翻译后修饰研究(也称为修饰组学研究)旨在确定修饰的蛋白质,并探讨和协调各功能修饰蛋白相关的生物事件。 蛋白质磷酸化是信号网络中一个关键的调控步骤,是一个影响广泛的蛋白质修饰形式,它能够影响真核有机体最基本的细胞进程。磷酸化修饰本身所具有的简单、灵活、可逆的特性以及磷酸基团的供体ATP的易得性,使得磷酸化修饰被真核细胞所选择接受,成为一种最普遍的调控手段。蛋白质的磷酸化和去磷酸化这一可逆过程,几乎调节着包括细胞的增殖、发育、分化、细胞骨架调控、细胞凋亡、神经活动、肌肉收缩、新陈代谢及肿瘤发生等生命活动的所有过程,并且可逆的蛋白质磷酸化是目前所知道的最主要的信号转导方式。以质谱技术为基础的进步,通过磷酸浓缩技术的辅助,使我们能够在体内大规模地进行高通量磷酸化位点测定。到目前为止,一些植物蛋白质组磷酸化的研究报告已经公布,例如,拟南芥体内蛋白质组范围内磷酸化位点图谱已经通过高精确度的LC-MS/MS和电场轨道阱回旋共振组合质谱(LTQ-Orbitrap)技术定位,拟南芥体内磷酸化位点网站数据库(PhosPhAt)提供了有关拟南芥磷酸化位点的信息( http://phosphat.mpimp-golm.mpg.de/ )。植物蛋白磷酸化数据库(P3DB)( http://www.p3db.org/ )则为植物磷酸化组学的信息资源,提供了一个多个植物蛋白磷酸化的数据资源。 蛋白质的泛素化也是真核细胞中主要的发生翻译后的蛋白质修饰之一。蛋白泛素化是一个重要的调控机制,控制着蛋白质的丰度、定位和活性。在植物中,几个大规模泛素化蛋白研究已经公布。例如,在拟南芥,使用抗泛素抗体的亲和纯化和后期MS / MS分析已开始用于识别泛素化蛋白。 5.5结构蛋白质组学平台的进展 蛋白质的大规模的三维结构数据集也对确立蛋白质功能和结构分析或蛋白质复合物分子之间的关系的非常重要。国际结构基因组组织( The International Structural Genomics Organization, ISGO)( http://www.isgo.org )已经成立,以促进全球性的结构基因组学的研究工作。结构基因组学的研究中心一直是日本的结构基因组学/蛋白质组学计划(the RIKEN Structural Genomics/Proteomics Initiative,RSGI),美国的蛋白质结构计划(PSI)和欧洲的结构基因组学中心。蛋白质3000计划:2002年由日本文部科学省启动,目标是了解3000个与新药开发相关蛋白质的结构和功能。蛋白质结构计划(PSI):1999年由美国国家卫生研究院发起,在美国设立了九个结构基因组研究中心,目标是十年(2001年-2010年)解析10000个蛋白质的三维结构,目前第一期计划已结束,并于2006年开始第二期(PSI-2)。 欧洲结构蛋白质组计划于2002年启动,第一轮计划(2002年-2006年)由欧盟第五框架计划资助,共完成了308个新的蛋白质结构的测定;第二轮计划由第六框架计划资助,致力于解析蛋白质复合物的三维结构。以确定蛋白质的结构为目的的国际努力对研究蛋白质结构做出了贡献。因此,解决蛋白结构的蛋白质数据库在过去十年里显著增加。如生物大分子结构数据集的最流行的资源PDB ( http://www.pdb.org/pdb/home/home.do )。 中国结构基因组计划于2002年由中科院启动,第一轮为“造血干细胞及血液系统疾病相关蛋白质的结构基因组学研究”,由中国科学技术大学牵头,中科院生物物理研究所、上海生命科学研究院参加;作为“人类肝脏蛋白质组计划”的重要组成部分,第二轮计划于2005年开始,在中科院生物物理研究所、中科院上海生命科学院、中国科学技术大学、清华大学和北京大学开展研究。 虽然在方法上结构蛋白质组学依然存在瓶颈,但一些方法的进展在这一领域发挥了重要作用。该组学的主要瓶颈之一就是折叠和可溶性的蛋白质获得。大多数结构基因组学研究都利用来自中心大肠杆菌细胞的蛋白质。无细胞表达系统已成为重要的一种获得蛋白质的方式,这可以解决很多基于细胞带来的问题,如蛋白质的质量和数量,或整个组织。大肠杆菌无细胞系统已经应用到蛋白质的氨基酸选择性稳定同位素标记,以有利于核磁共振光谱分析。小麦胚芽无细胞系统亦已发展成为一个真核细胞的无细胞系统,具有生产多结构域蛋白的优点。小麦胚芽无细胞系统已经被纳入一个机器人自动化平台。利用细胞为基础的和无细胞系统,一种比较研究拟南芥96个开放阅读框(ORF)蛋白的结合已经于2005年开始。这项计划由结构基因组学中心(the Center for Eukaryotic Structural Genomics,CESG)主持。 核磁共振光谱平台和技术也在结构蛋白质组学方面发挥了重要作用。大肠杆菌和小麦胚芽胚胎的无细胞系统和选择氨基酸标签结合,促进了核磁共振光谱在在研究蛋白质组学研究中的进展。此外,高分辨率多维交叉极化核磁共振和交叉极化(cross polarization,CP),魔角旋转核磁共振谱(magic angle spinning,MAS)和偶极去耦(dipolar decoupling,DD)也成为膜蛋白结构研究的核磁共振分析平台。此外,最近硬件-核磁共振探针的改善为利用核磁共振的方法筛选结合配体的特定的蛋白质提供机会。 X射线晶体学已被用来确定在近90% PDB(The RCSB Protein Data Bank)( http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html )中蛋白质的三维结构 。特别是第三代X射线同步加速器的光束线已成为大分子晶体学(macromolecular crystallography,MX)的基础。它是用来确定大分子的三维结构(如大型蛋白质和蛋白质复合体)。例如,日本独立行政法人理化研究所(RIKEN)的SPring-8同步加速器已经被用来确定重要的膜蛋白和超分子的蛋白质复合体结构,如Ca2+ -ATP酶,视紫红质和鞭毛。 通过使用现有的结构蛋白质组学分析平台,许多有代表性的DNA结合结合域(DNA-binding domain,DBD)的结构,即AP2/ERF结构、NAC、WRKY类、B3和SBP等植物特有的转录因子的结构(TF)的家族已经被确定。 5.6 结构蛋白质组学的信息资源 生物信息学及相关数据库也是推进结构蛋白质组学研究基本手段。蛋白质三维结构的计算预测方法主要分为两种:基于模板的建模(template-based modeling,TBM)和自由建模(free modeling,FM)。自由建模也被称为“从头”建模,是用来预测以前没有解决结构信息的蛋白质的三维结构。一个免费的Web服务器和基于模板的建模的模板最近研发成功,例如,网络服务器I-TASSER,就用于蛋白质结构预测。基于模板的建模方法是一种使用匹配的,进化过程中相关已知蛋白质结构为模板,并进行比较的方法。有许多相关的网络服务器和工具(例如瑞士生物信息学瑞士模型服务器研究院),以支持基于模板的建模。蛋白质的结构和功能(GTOP)数据库( http://spock.genes.nig.ac.jp/~genome/gtop.html )提供了蛋白质结构和功能信息,这些信息通过各种计算工具和结构预测从氨基酸序列获得。 基于结构的蛋白质分类数据库,如蛋白质分类数据库(CATH)( http://www.cathdb.info/ )和蛋白质结构分类(SCOP)数据库( http://scop.mrc-lmb.cam.ac.uk/scop/ )提供了蛋白质结构之间的重要关系、蛋白质功能和蛋白质进化等方面的重要信息。基于保守结构域的蛋白质家族数据库,如Pfam结构域,超蛋白质家族和通过进化关系对蛋白质的分析信息是蛋白质家族分类的重要资源。这些类型的数据库通常用于蛋白质功能的预测和分类,例如,有关资源在全基因组范围内鉴定特殊转录因子的基因。 代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。代谢组学的目的是采用全面和综合的方法了解代谢系统。这得益于各种测量仪器对代谢的研究。代谢物组学的方法使我们能够进行多种代谢产物的平行鉴定和定量分析,值得注意的是,植物代谢组代表着一个巨大的化学多样性系统,这是因为每个植物物种都有一套复杂的代谢物。因此,植物代谢组学会遇到一个大的分析挑战,如果解决了这个难题,代谢组学就能够阐明植物细胞系统。代谢研究能够允许我们进行分子育种,提高抗逆性,并能够生产药品、功能食品、生物材料和能源。 6.1 研究代谢组学的工具和设备 最近研究代谢的仪器方面有了许多显着的技术进步,代谢组学实验开始于代谢指纹采集。采集方法有气相色谱、质谱、液质联用(LC-MS)法、傅立叶变换质谱、红外光谱和核磁共振等。样品分离的方法有气相色谱(GC)、高性能或超高效液相色谱(UltraPerformance LC)、毛细管电泳等。分离方法通常与各种质谱技术结合在一起使用。 毛细管电泳-质谱联用(CE-MS)是一种特别有效的、高灵敏度的分离和分析样品中极化分子的方法。飞行时间质谱(TOF MS)和四级管质谱(qMS)也非常实用。经实验证实,前者的灵敏度和分辨率都高于后者,具有更好的应用前景。三重四极杆质谱(Triple-Q)质谱和四极杆-飞行时间串联质谱(Q-Tof)也经常使用。不涉及预分离样品的方法,如傅立叶变换离子回旋共振质谱仪(FT-ICR MS),也被使用。 核磁共振为基础的方法也可用于代谢物组学分析。根据样品的溶解度,这些方法大致可分为溶液核磁共振和不溶性或固态核磁共振。使用高分辨率(hr)-MAS技术有可能从难溶样品和固态样品中获得代谢指纹。在一维核磁共振(NMR)中,质子(1H)通常被仔细观察(1H-NMR核磁共振氢谱)和更详细地分析,如代谢产物的鉴定或流量分析等,都可以在二维或多维核磁共振分析中通过1H与其它核,尤其是13C和15N相结合而获得。 产生的指纹、质谱和核磁共振光谱要进行前处理,包括背景噪声抑制、峰值调整和选择高峰期。前处理数据集随后用于识别代谢物。这些化合物在数据库检索中分别对应每个频谱信号。在非目标分析中,包括对未知化合物的频谱数据集要进行统计分析,如多元分析以挖掘数据的生物学意义。在目标分析中,频谱数据,特别是相关的化合物集被用于进一步分析化合物代谢概况。 数据分析在代谢组学中具有重要的生物学意义。统计分析采用多元分析,如主成分分析等法(PCA)、层次聚类分析(HCA)和自组织映射(SOM)分析等,这通常被用来区分样品和/或代谢物。关于代谢途径代谢的可视化图也常用,并与其它组学方法,包括基因表达谱,特别是参与代谢途径的酶基因表达谱相结合。 6.2 植物代谢谱 系统收集代谢物是在代谢组学研究的第一步。这一步可以利用各种具有高通量特点的工具完成,如上面提到的那些工具。全面的代谢数据集可以帮助我们理解细胞针对内外环境的变化做出的反应。此外,与代谢相关的表达谱变化可以和基因差异联系在一起,从而鉴定与表型变化相关的基因。 人们目前已经开始进行多种植物物种代谢谱的研究工作,并建立了一些相关的数据库。例如,在拟南芥方面,一个美国国家科学基金会(National Science Foundation,NSF)资助的项目最近已开始( http://lab.bcb.iastate.edu/sandbox/pbais05/alpha/plantmetabolomics_trimmed/index.php )。该计划旨在开发植物代谢组学数据库。茄科植物已经有几个可以利用的数据库。番茄的代谢组数据库(Metabolome Tomato Database,MoToDB)是基于液相色谱-串联质谱(LC-MS)分析为基础的代谢组数据库( http://appliedbioinfor matics.wur.nl/moto/)。KOMICS(Kazusa-omics)数据库收集了由 LC-FT-ICR-MS质谱检测代谢物峰得到的信息,包含了番茄栽培品种Micro-tom。Micro-Tom番茄植株矮小、生长密度高、生命周期短、容易被高效转化,成为功能基因组学研究的新型模式植物。 Armec Repository计划提供了电喷雾质谱得到的马铃薯代谢组数据( http://www.armec.org/MetaboliteLibrary/index.jsp )。Golm代谢组数据库(GMD)提供了公众可以获取的代谢物的质谱特征,以及其它信息和相关工具 ( http://csbdb.mpimp-golm.mpg .de/csbdb/gmd/gmd.html)。串联质谱光谱标签数据库(The MS/MS spectral tag,MS2T)提供了很多植物的光谱( http://prime.psc.riken.jp/lcms/ms2tview/ms2tview.html )信息。这些数据库作为信息资源具有重要作用。它们也可以作为工具,全面服务于从其它组学研究获得数据的分析或进一步整合 6.3 代谢组和其它组学资源的综合方法 代谢组学方法也有助于我们理解细胞整体之间的关系,这些方法也和其它组学信息联系,如转录组学、蛋白质组学和基因变异等。结合许多其它组学资源,如目前存在的全基因组序列信息、大规模的转录组数据集、相关的共表达信息、突变体和全长cDNA克隆集合等生物资源,这些综合的方法已成功地体现在拟南芥的研究中。一种系统鉴定代谢相关分子网络的概念性提纲也被提了出来,这也充分利用了转录组和代谢组的分子网络资源信息。在硫和氮元素不足诱导胁迫条件下,利用BL-SOM(a batch-learning, self-organizing map)技术对拟南芥转录组和代谢组进行了分析,鉴定出了涉及葡萄糖苷生物合成的基因。 整合代谢组和转录组分析的方法是分析标签激活突变体、过表达MYB转录因子和PAP1基因,以鉴定拟南芥中的涉及花色苷生物合成有关的基因。ATTED-II是一个基于反式因子、微阵列表达谱数据及顺式调控元件预测的针对拟南芥的共调控、共表达基因查询的数据库。该数据库的共表达网络是通过对58个公共可得的58个试验系的数据分析得到的,其中包括1388个微阵列芯片数据、从基因上游200bp区域中预测的调控因子数据,对每一个基因都有直观的表达模式描叙。从ATTED-II获得的拟南芥转录组共表达信息已经用于特定代谢途径相关基因的鉴定,然后又用到了目标基因的突变株代谢组分析。ATTED-II数据库被用来确定在脂代谢相关新基因时,发现了一种新基因-尿苷二磷酸葡萄糖焦磷酸化酶(UDP glucose pyrophosphorylase,UGP3)。UGP3催化硫脂生物合成第一步。共表达分析,也可以用来确定有关黄酮类化合物的合成的基因,从而让人们进一步发现了两个黄酮合成基因-UGT78D3和RHM1。 代谢组和转录组信息整合的方法也已经用来阐述调控网络。这些网络使植物对外界环境胁迫做出应激反应。拟南芥在寒冷和脱水条件下的代谢途径用代谢组方法进行了分析,具体方法是利用各种质谱技术结合微阵列技术分析过表达的两种转录因子DREB1A/CBF3和DREB2A的基因。另外,代谢组学信息也已经被用来鉴定野生拟南芥和敲出9-顺式环氧类胡萝卜素双加氧酶(9-cis-epoxycarotenoid dioxygenase, NCED)基因突变体在脱水条件下的表型变化 ,从而发现了一种脱落酸依赖性的调节网络。 代谢组学信息也已经被用来评估自然变异的化学表型变化或隔离群体的化学表型变化。综合运用代谢组和转录组信息,及其它们之间的联系将有助于我们分析涉及代谢变化的关键基因,还有助于我们找到代谢和表型变化之间的遗传关系。利用分离群体分析代谢的数量性状基因座(QTL)的方法已经用于多种植物,如拟南芥、白杨和番茄等。此外,随着包括再测序等高通量基因分型方法的利用,已经有很多全基因组范围内的变异数据库已经可以利用,这使人们对寻找表型变化和核苷酸序列变异之间的关系更加感兴趣,尤其是那些在进化过程中具有重要作用的基因。试图寻找代谢和基因组多样性之间关联模式的研究最近也被应用于芝麻和水稻等植物中。 6.4 代谢组学的信息资源 代谢有关的各种信息资源,不仅在代谢组研究,而且在与其它组学数据的协同整合方面的也具有重要作用。位于美国斯坦福的拟南芥信息资源网站(The Arabidopsis Information Resource, TAIR)( http://www.arabidopsis.org/portals/metabolome/index.jsp )是国际上最为权威的拟南芥基因组数据库和拟南芥基因组注释系统,它具有丰富的数据资源和最新的注释信息。拟南芥转录因子数据库DATF的每个条目都有TAIR链接,可以直接查看最新更新信息。 KEGG是日本基因组学网络服务中最基础的数据库,对于更高层次地理解生命具有重大的意义。KEGG包括代谢路径数据库(PATHWAY database)( http://www.genome.jp/kegg/pathway.html ),可用于进行研究代谢途径和化合物的分子反应网络。另外,KEGG还提供预测注释基因功能、代谢路径的功能。 GENES database提供产自基因组测序工程的大量的基因或蛋白序列信息。 LIGAND 数据库提供大量细胞活动涉及的化合物结构。除此之外,还有一些有限的源于试验的数据信息,如分别储存于EXPRESSION和 BRITE 数据库的微阵列基因表达谱数据和酵母双杂交数据。 植物代谢网络(The Plant Metabolic Network,PMN)是一个合作项目,旨在建立植物代谢途径数据库( http://www.plantcyc.org/ )。PlantCyc是它的主要组成成分之一。它包含计算分析的基因信息、酵素信息、化合物信息、反应信息和初级、次级代谢产物的信息( http://www.plantcyc.org:1555/PLANT/server.html ),并且可以使用可视化通路工具( http://bioinformatics.ai.sri.com/ptools/ )。 AraCyc和PoplarCyc也是可以利用的植物调节网络网站(Plant Metabolic Network,PMN)。它们能够提供有关拟南芥和杨树代谢途径的信息。 还有一些代谢途径数据库可以提供其它植物物种的代谢信息,这些数据库由PMN的合作者完成。 MapMan是PPDB(Plant Proteome Database)数 据 库( http://ppdb.tc.cornell.edu/ )所 提 供的一种工具。它按照蛋白质在生物体代谢途径和生物过程中的功能对基因进行分类,也涉及代谢途径和其它过程( http://mapman.gabipd.org/web/guest )。其原理与GO很相似,都是利用层次分类方式对基因产物进行功能分类。 KaPPA-View是另一个基于Web的分析工具,它可以将转录组和代谢组数据加到植物代谢途径图谱上( http://kpv.kazusa.or.jp/kappa-view/ )。 PRIMe是一个基于Web的服务器,它提供了多方面的代谢产物数据集,这些代谢产物来自核磁共振光谱、气相色谱质谱(GC/MS)或液相色谱-串联质谱(LC/MS/MS)和毛细管电泳-质谱(CE/MS)分析。 突变体分析是研究基因功能的一个有效途径。全面的突变株收集也是反向遗传学的重要生物资源。如上所述,各种分析平台的迅速发展,使我们能够发现涉及特定表型变化的基因。随着这些分析平台的进展,对全面收集突变体及相关信息资源的需求也急剧增加,从而促进了植物的高通量分析和全基因组分析。 7.1 插入突变 随着植物基因组测序的完成,插入突变的资源信息和注解插入位置的信息已成为十分有益的资源,这可以促进注解基因的功能分析。转基因标签(T-DNA标签系)和转座子标签系(transposon-tagged lines),已成为受欢迎的植物插入突变体资源。T-DNA标签突变体被看作一个受欢迎的资源,是由于它可以在拟南芥中短时间内获得大量的突变群体。玉米转座子系统-Activator(Ac)/Dissociation(Ds)系统也是一个非常受欢迎的系统,它可以导致转座子诱导的突变,并能够产生大量单一插入位点的群体。在水稻中,内源性反转录转座子Tos17可以在特殊条件下激活,也可用于研究粳稻和日本晴水稻(nipponbare)的插入突变体,提供有关的水稻Tos17突变体的网络资源在 http://tos.nias.affrc.go.jp/index.html.en 网址上。此外,玉米增强/抑制自主转座子(En/Spm)元件也已经被用来作为植物功能基因组学研究的有效工具。在增强子陷阱(ET)和基因陷阱(GT)的结构上加上的T-DNA和AC / Ds转座子有利于在研究临近启动子和增强子活性过程中俘获基因。 OryGenesDB( http://orygenesdb.cirad.fr/ )是一个用于水稻反向遗传学研究的工具;有水稻基因T-DNA以及Ds侧冀序列标签数据库和基因注释。 POSTECH是世界上独立分离侧翼序列最多的研究机构。研究人员运用反向PCR和TAIL-PCR技术分离到了80,259条可定位于水稻染色体的T-DNA侧翼序列,并完全投放到RiceGE数据库(Rice Functional Genomics Database)( http://signal.salk.edu/cgi-bin/RiceGE )。 RiceGE数据库内容十分全面,除了POSTECH自身分离的八万多条T-DNA侧翼序列外,还整合了其它多家科研单位的T-DNA、Tos17和Ac/Ds转座子的侧翼序列。该网站的电子检索系统可以通过基因号、基因功能、基因在基因组上位置等关键词进行检索,也可以用基因序列进行BLAST检索,使用十分方便。 7.2 激活标签法 对于那些缺失,但不会导致明显表型变化的基因和缺失致死的基因,可以利用激活标签进行标记,产生功能获得性突变。激活标签(Activation tagging)技术的主要原理是使插入位点的基因过量表达或异位表达,导致基因的显性功能获得性突变。具体做法是在T-DNA或转座子上携带上多聚花椰菜花叶病毒CaMV35S增强子。T-DNA或转座子若插入基因内,则可能导致基因插入突变;若插入基因附近(上游或下游),则可能激活正常情况下不表达或表达极弱的基因的表达,得到显性功能获得突变;若反向插入到基因上游,有时会通过反义表达造成基因沉默。插入突变通常引起隐性突变,突变在当代不能表现出来。激活标签通过增强或激活标记基因的表达引起显性突变,可以在当代筛选想要的突变,甚至可以根据需要的性状直接筛选获得目的突变体。以上种种优点大大提高了激活标签的筛选效率。 7.3 福克斯狩猎系统(The FOX hunting system) FOX hunting system是近几年发展起来的又一种新型的分子生物学研究工具。在 2006年, FOX hunting system作为一种植物功能获得性基因筛选技术首次被提出,它可用于系统性阐明植物基因的功能。FOX hunting system可以在转基因植株中过量表达单个或有限数量的全长 cDNA。这些异常表达的全长cDNA 可能会导致显著的突变表型。根据研究目的对表型等方面发生改变的突变植株进行筛选和解析,可以推断出转基因突变植株中所携带外源基因的功能。 FOX hunting system的基本操作方法主要分为五步: (1) 创建目的植物均一化全长cDNA文库; (2) 将全长cDNA连接到植物表达载体并转化农杆菌,构建农杆菌 FOX文库; (3) 农杆菌通过浸染等方法转入拟南芥中,构建拟南芥FOX文库; (4) 监测 FOX转基因植株的表型和生理等方面的变化; (5) 克隆候选转基因植株中所携带的目的基因,转回拟南芥或原植物中检查表型是否相符,验证后解析基因功能。 7.4 化学诱变和物理诱变 化学诱变剂,如甲基磺酸乙酯(EMS)、叠氮化钠和甲基亚(MNU)和物理诱变剂,如快速中子、伽玛射线和离子束照射,许多年来都被用来产生了各种植物的遗传学突变群体。 定向诱导局部基因组突变技术(Targeting Induced Local Lesions IN Genomes, TILLING)是由美国Fred Hutchinson癌症研究中心发展起来的一种全新的反向遗传学研究方法。TILLING技术借助高通量的检测手段,快速有效地从由化学诱变剂诱变过的突变群体中鉴定出点突变。由于高通量TILLING技术可以进行快速和低成本的化学诱变,目前已被应用于多种生物的研究中。EcoTILLING技术不同于TILLING技术之处在于 EcoTI LLI NG检测的是自然群体中的等位基因的多态性。目前EcoTI LLI NG技术已经成为一种筛选自然变异突变体中SNP的较为廉价和快速的常用技术。该技术不需要将多个DNA混合进行筛选,因此与TILING相比更容易直接找出突变植株。水稻、番茄和拟南芥的TILLING计划已在美国加州大学戴维斯基因组中心( http://tilling.ucdavis.edu/index.php/Main_Page )完成。大豆突变数据库提供大豆诱变处理的品系和表型资料( http://www.soybeantilling.org/index.jsp )数据。该数据库是为了TILLING(Forrest and Williams82)的大豆诱变突变体第二代库工程而开发的。在约翰英尼斯中心的RevGenUK( http://revgenuk.jic.ac.uk/about.htm )提供苜蓿、百脉根和芜菁的TILLING服务。UTILLdb数据库( http://urgv.evry.inra.fr/UTILLdb )则包括了在不同发育阶段的每种突变植株,并且包含了植株的数字图像。UTILLdb含有突变基因的表型和序列信息,并且能够搜索感兴趣的TILLING等位基因。 7.5 基因沉默技术 虽然插入突变是产生功能失活突变体的有效方法,但是它也有局限性——存在多余基因或致死突变。为了克服这些限制,阻断基因表达的方法已开发,并已经应用于植物基因功能分析。RNA干扰(RNAi)是一种RNA介导的序列特异性沉默,由基因的同源双链RNA(dsRNA)引发,也被称为转录后基因沉默(post-transcriptional gene silencing,PTGS)。一个含内含子序列,且有自我互补发夹结构的RNA(ihpRNA)组成型表达,一直是沉默植物中靶基因的有效方法。随着条件性沉默靶基因的要求,使用化学诱导的Cre / loxP重组系统,或使用热休克诱导基因启动子的限制性的RNA干扰系统最近发展起来。由于拟南芥是目前植物基因组资源研究最深入的植物种类,所以RNAi 技术在植物功能基因组中的研究主要体现在拟南芥功能基因组的研究上。 CATMA(Complete Arabidopsis transcrip2tiome microarray)计划以及AGRIKOLA (Arabidopsis genomic RNAi knock – out line analysis)( http://www.agrikola.org/index.php?o=/agrikola/html/index )都在应用RNAi技术进行大规模的拟南芥功能基因组的分析。现在CATMA计划已经开始设计和生产高品质的基因特异性序列标签(gene-specific sequence tag,GST),这些标签涵盖大部分拟南芥基因( http://www .catma.org/)。苜蓿RNA干扰的数据库( https://mtrnai.msi.umn.edu/ )也是基于RNA干扰沉默基因的方法建立起来的网络信息资源。病毒诱导的基因沉默(Virus-induced gene silencing,VIGS)是一种RNAi的衍生方法,它利用的是植物RNA干扰介导的抗病毒防御机制。VIGS系统已经被用于诱导评估近5000个随机 cDNA片段在抵抗疾病中的作用。 研究转录因子功能时,如果某个转录因子缺失表达,由于转录因子同源家族基因功能的补偿,使得表型很难辨别,但是嵌合阻遏基因沉默技术(The chimeric repressor silencing technology,CRES-T)能解决这个问题。CRES-T系统也为调控基因沉默带来了新的技术手段。CRES-T利用转录因子和一个植物特异性抑制结构域(EAR)融合的优点,可以成为转基因植物重要的抑制子,并且抑制目标基因的表达。CRES-T系统已经被用于拟南芥转录因子的注解,FioreDB便是一个可利用的数据库( http://www.cres-t.org/fiore/public_db/index.shtml )。 最近,农作物和家畜核苷酸序列的积累,使我们能够在全基因组范围内比较分析模式生物的基因和发现新的涉及表型的相关基因。从不同物种得来的基因组的整合信息,如大规模收集的cDNA和全基因组测序计划的数据将有利于我们共享关于模式生物和应用生物基因功能的信息,也将加速重要农艺性状相关的分子水平的研究。在网络上可以访问的一些植物基因组学的信息资源已经出现,另外还有一些适当的分析工具。表4是植物基因组一些个综合数据库的网址。 表4 植物综合数据库 数据库 植物 网址 TAIR 拟南芥 http://www.arabidopsis.org/ SIGnAL 拟南芥 http://signal.salk.edu/ RARGE 拟南芥 http://rarge.psc.riken.jp/ Rice Genome Annotation Project 水稻 http://rice.plantbiology.msu.edu/ RAP-DB 水稻 http://rapdb.dna.affrc.go.jp/ SOL genomics network 茄科 http://solgenomics.net/ Gramene 禾本科 http://www.gramene.org/ GrainGenes 麦类作物 http://wheat.pw.usda.gov/GG2/index.shtml SoyBase 大豆 http://www.soybase.org/ MazieGDB 玉米 http://www.maizegdb.org/ CyanoBase 蓝细菌 http://genome.kazusa.or.jp/cyanobase/ GDR (Genome Database for Rosaceae) 蔷薇科 http://www.bioinfo.wsu.edu/gdr/ Brassica Genome Gateway 芸苔 http://brassica.bbsrc.ac.uk/ Cucurbit Genomics Database 葫芦科 http://www.icugi.org/ Phytozome 植物 (全基因组信息) http://www.phytozome.net/ PlantGDB 植物(全基因组或/大规模 EST信息) http://www.plantgdb.org/ EnsemblPlants 植物(全基因组信息) http://plants.ensembl.org/index.html ChloroplastDB 植物(叶绿体基因组) http://chloroplast.cbio.psu.edu/ KEGG PLANT 植物(全基因组或/大规模 EST信息) http://www.genome.jp/kegg/plant/ 8.1 植物门户网站信息资源 TAIR是位于美国的拟南芥信息资源网站(The Arabidopsis Information Resource, TAIR)( http://www.arabidopsis.org/ ),也是国际上最为权威的拟南芥基因组数据库和拟南芥基因组注释系统。它具有丰富的数据资源和最新的注释信息。拟南芥转录因子数据库DATF的每个条目都有TAIR链接,可以直接查看最新更新信息。Salk研究所基因组分析实验室(The Salk Institute Genomic Analysis Laboratory,SIGnAL) 也主要是一个涉及拟南芥的信息资源( http://signal.salk.edu/ ),它整合了各种组学数据。RIKEN植物科学研究中心的基因组的百科全书(The RIKEN Arabidopsis Genome Encyclopedia,RARGE) 能够提供关于拟南芥的各种组学信息( http://rarge.gsc.riken.jp/db_home.pl )。上述这样的门户网站都提供了获取组学综合数据的生物资源,还设有注解基因的数据,如基因的全长cDNA克隆、基因突变、基因表达模式和基因组中的同源基因Gramene 是谷类比较图谱的资源网站。它是一个协助性的、以网络为基础的公开性数据资源,致力于稻科植物的比较基因组分析。Gramene的目标是使用公用工程信息促进交叉物种的同源关系研究。这些公用工程信息包括基因组、EST序列、蛋白质结构和功能分析、遗传学和物理图谱、生物化学通路的阐述、表型特征和突变的QTL定位及描述。作为一个信息源,Gramene可以在公共资源中提供更多有价值的资料,便于研究者利用。 随着基因组测序计划的实施,分享组学进展成果和整合相关资源的门户网站也相继推出。其中包括番茄基因组测序计划的基因组信息资源门户网站( http://solgenomics.net/ )。 SoyBase是大豆基因组研究资源的门户网站,它公布全基因组序列数据( http://soybase.org/ )。MaizeGDB是关于玉米生物信息社会的数据库,包括遗传和基因组数据集和相关信息( http://www.maizegdb.org/ )。Sol 基因组网络是茄科植物基因组的门户网站,包含有番茄基因组计划的信息资源( http://solgenomics.net/ )。此外还有大豆数据库SoyBase( http://www.ncbi.nlm.nih.gov/ ),它是一个全面的大豆遗传学和基因组学的信息资源库。玉米基因组的网站在( http://www.maizegdb.org/ ),该数据库包括玉米所有遗传学、基因产物、功能分析以及相关文献查阅等的信息。 8.2 植物种间基因组尺度比较 随着一些植物物种基因组测序的完成,基因组规模的比较分析开始能够被用来开发数据和发布数据集,以识别植物物种之间保守或特殊的性质。 人们已经利用从模式生物基因组测序推导出的蛋白质组数据集,完成了若干项尝试,目的是建立平台,以验证基因和阐明基因重复和种间基因功能的多样化。全面基因家族的数据集通常利用计算机程序来完成,包括进先行一次所有的序列相似性搜索,然后是聚类蛋白质家族,方法如马尔可夫聚类(Markov Clustering,MCL)或蛋白质结构域分析等。 物种间基因的排列以及相关的染色体定位也被称为同线性或共线性,这已经成为从共同祖先基因推导到一个相关的物种的重要方法。植物基因组复制数据库(The plant genome duplication database,PGDD)能够提供植物全基因组序列和基因组同线性关系( http://chibba .agtec.uga.edu/duplication/ )。 8.3 植物基因组学重点数据库 序列特异性DNA结合结构域是关键的分子开关,它能够控制或影响许多生物过程,例如发育或对环境的变化反应等。在植物中,拟南芥全基因组范围内,鉴定编码转录因子基因的实验最早实施和公布,这些信息与其它生物比较,揭示了一些植物特有转录因子的特点。在过去的十年中,通过完整的基因组序列信息的利用,人们已经能够在一些生物中汇编描述转录因子调节系统和功能的组织结构网络。有很多数据库可以提供植物编码转录因子基因的信息,这些信息通常是基于计算机方法的预测,如序列的相似性搜索或/和隐含马尔可夫搜索保守的DNA结合结构域(表5)。 表5 植物转录因子数据库 Database URL Species RARTF http://rarge.gsc.riken.jp/rartf/ 拟南芥 AGRIS, AtTFDB http://arabidopsis.med.ohio-state.edu/AtTFDB/ 拟南芥 DATF http://datf.cbi.pku.edu.cn/ 拟南芥 DRTF http://drtf.cbi.pku.edu.cn/ 水稻 DPTF http://dptf.cbi.pku.edu.cn/ 白杨 TOBFAC http://compsysbio.achs.virginia.edu/tobfac/ 烟草 SoybeanTFDB http://soybeantfdb.psc.riken.jp/ 大豆 PlantTFDB http://planttfdb.cbi.pku.edu.cn/ 22种植物 PlnTFDB http://plntfdb.bio.uni-potsdam.de/v3.0/ 20种植物 GRASSIUS, GrassTFDB http://grassius.org/grasstfdb.html 玉米、水稻、高粱、甘蔗 LegumeTFDB http://legumetfdb.psc.riken.jp/ 大豆、百脉根、蒺藜苜蓿 DBD http://dbd.mrc-lmb.cam.ac.uk/DBD/index.cgi?Home 多于700物种 最近,深入的转录因子编码基因数据库整合已经完成,从而建立了一个综合性的、基于转录因子信息的比较基因组学转录因子数据库。 GRASSIUS迈出了建立一个全面信息平台的第一步,这个平台能够整合信息、工具和植物比较基因组学的调控资源。GRASSIUS 的禾草类转录因子数据集(The Grass Transcription Factor Database,GrassTFDB)整合了玉米转录因子数据库(MaizeTFDB)、水稻转录因子数据库(RiceTFDB)、高粱转录因子数据库(SorghumTFDB)和甘蔗转录因子数据库(CaneTFDB)( http://grassius.org/grasstfdb.html )。GRASSIUS的豆科植物转录因子数据集(GrassTFDB)提供了豆科植物预测的转录因子编码基因,这些基因来自豆科3个主要品种(大豆、益母草和截型苜蓿)的基因组注解( http://legumetfdb.psc.riken.jp/ )。这个数据库是SoybeanTFDB( http://soybeantfdb.psc.riken.jp/ )的扩展版本,目的是整合豆科植物转录因子的知识,并提供豆科植物的公共资源,并用于豆科植物、非豆科植物或其他植物转录因子的比较基因组学。
16366 次阅读|1 个评论
介绍一个新的研究生专业:计算智能及计算生物学
热度 2 profjin 2011-8-27 19:24
我在德国本田研究院工作时开始做一些计算系统生物学及其应用研究。当时最大的感受是要找既有计算机基础,又有系统生物学知识的博士生很难。到英国萨里大学后,经过一年努力,学校终于同意从2012年秋季开始设立“计算智能及计算生物学”的研究生专业, 由计算机系开设,生物系协助,学制一年。下面对该专业的课程设置作简单介绍。 MSc in Computational Intelligence and Computational Biology Department of Computing, University of Surrey, Guildford, UK 必修课五门: 1)计算及认知神经学 (Computational and Cognitive Neuroscience) 2)计算系统生物学基础 (Introduction to Computational Systems Biology) 3)生物信息学 (Bioinformatics and Bioinformatics Programming) 4)脑机接口及信号处理 (Brain Computer Interface and EEG Signal Processing) 5)进化计算及人工发育 (Evolutionary Computation and Artificial Development) 部分选修课: 1)集体智能 (Collective Intelligence) 2)数据库及知识发现 (Database and Knowledge Discovery) 3)云计算 (Cloud Computing) 更详细的信息参见: http://www.soft-computing.de/CICB.html
6044 次阅读|4 个评论
计算生物学研究文献分析报告 1984 - 2011年
xupeiyang 2011-4-14 15:03
计算生物学是指开发和应用数据分析及理论的方法、 数学建模 、 计算机仿真 技术等。当前,生物学数据量和复杂性不断增长,每14个月基因研究产生的数据就会翻一番,单单依靠观察和实验已难以应付。因此,必须依靠大规模计算模拟技术,从海量信息中提取最有用的数据。 主题词: 计算生物学 英文名称: Computational Biology 款目词: Biology, Computational;Molecular Biology, Computational(分子生物学, 计算机);Bioinformatics(生物信息学) 树状结构号: G01.273.180;H01.158.273.180 相关参见: Medical Informatics(医学信息学) 标引注释: SPEC; SPEC qualif; coord IM with specific biol spec (IM); DF: COMPUTATIONAL BIOL 标引回溯注释: Molecular Biology(分子生物学) (1992-1996) 历史注释: 97 主题词详解: A field of biology concerned with the development of techniques for the collection and manipulation of biological data, and the use of such data to make biological discoveries or predictions. This field encompasses all computational methods and theories applicable to MOLECULAR BIOLOGY and areas of computer-based techniques for solving biological problems including manipulation of models and datasets. 信息分析平台 http://www.gopubmed.org/web/gopubmed/2?WEB01i80xmf1jqss6I20I1I00h001000j100200010 Computational Biology Top Terms Publications ‍ Humans 32,741 ‍ Proteins 29,713 ‍ Computational Biology 28,437 ‍ Genomics 26,480 ‍ Genome 23,100 ‍ Animals 22,960 ‍ Genes 22,318 ‍ Proteomics 19,645 ‍ Proteome 16,327 ‍ Algorithms 10,169 ‍ Mass Spectrometry 8,178 ‍ DNA 7,954 ‍ Biology 7,771 ‍ Gene Expression Profiling 7,541 ‍ Amino Acid Sequence 6,937 ‍ Metabolism 6,917 ‍ gene expression 6,877 ‍ Gene Expression 6,783 ‍ Technology 6,400 ‍ Peptides 6,282 1 2 3 ... 2315 信息分析报告: Computational Biology.docx
个人分类: 信息分析|2574 次阅读|0 个评论
当前生物学研究的热门
热度 4 zls111 2011-3-16 11:13
在看PLos biology杂志的文章,顺便以学科来看文章,主要是想看下关于进化生物学有什么新的文章。粗粗的一看plos biology把生物分的学科真够多,数学也算进来了。 这几年觉的生化,神经是比较热门,确实也在下面体现出来了,这方面有很多文章。 但意想不到的, 进化生物学,计算生物学,遗传与基因组学 也是相当热门,甚至有超过生化与神经学科的趋势。真是意想不到! 国内的发展趋势离这个还是蛮远的,有生物学科的学校有这些热门方向还很少。也许做生化和神经很烧钱,但计算生物学,进化生物学与基因组学相对来而来还不是很烧钱,也是以后发展趋势,为什么不大力发展这些呢? 还有国内的一些观念,觉得做传统实验就是做生物,有的时候都不敢大胆提出做进化,如evo-dev,改成dev-evo,这些真是好笑,大家面对都是生物学问题。我倒觉得成本到是一个重要因素,做实验花那么多钱,应该强调效率,用效率来评价研究。 来自: http://www.plosbiology.org/article/browse.action 2011-03-16 Anesthesiology and Pain Management (5) Biochemistry (328) Biology (1) Biophysics (194) Biotechnology (116) Cardiovascular Disorders (17) Cell Biology (666) Chemical Biology (25) Chemistry (10) Computational Biology (398) Computer Science (7) Critical Care and Emergency Medicine (2) Dermatology (8) Developmental Biology (443) Diabetes and Endocrinology (48) Ecology (398) Evidence-Based Healthcare (1) Evolutionary Biology (677) Gastroenterology and Hepatology (15) Genetics and Genomics (809) Geriatrics (8) Hematology (30) Immunology (181) Infectious Diseases (190) Marine and Aquatic Sciences (6) Mathematics (37) Mental Health (39) Microbiology (270) Molecular Biology (494) Nephrology (1) Neurological Disorders (59) Neuroscience (578) Non-Clinical Medicine (16) Nutrition (17) Obstetrics (6) Oncology (92) Ophthalmology (7) Otolaryngology (1) Pathology (10) Pediatrics and Child Health (8) Pharmacology (18) Physics (2) Physiology (152) Plant Biology (112) Public Health and Epidemiology (53) Radiology and Medical Imaging (13) Respiratory Medicine (7) Rheumatology (4) Science Policy (133) Surgery (3) Virology (119)
个人分类: 科研笔记|5208 次阅读|4 个评论
计算生物学 发展趋势(2010)
phenome 2011-1-16 22:50
计算生物学 发展趋势(2010) Trends in computational biology—2010 近日Nature Biotechnology编辑H Craig Mak撰文综述了2010年 计算生物学 方面的重要进展,主要进展涉及: 第一,无可争辩,NGS新一代测序技术的数据分析; 第二,GWAS数据挖掘; 第三,分子影像中的模式解析; 第四,基于社交网络与web2.0 的计算生物学新玩法。 原文http://www.nature.com/nbt/journal/v29/n1/full/nbt.1747.html
个人分类: 计算生物学|4116 次阅读|0 个评论
《系统生物学》教学大纲
MaBinGuang 2010-4-18 21:45
打算开《系统生物学》的课程,在网上搜了搜,却没有找到该科目的教学大纲可以参考,于是就自己写了一个草稿,供同仁参考(转载或引用请注明出处)。 系统生物学 课程编码: 课程名称: 系统生物学 总学分: 3 总学时: 52学时 课程英文名称: SystemsBiology 先修课程: 生物化学、细胞生物学、分子生物学、高等数学、计算机基础 适用专业: 生物科学生物技术生物工程 一、课程性质、地位和任务 《系统生物学》是生物科学、生物技术和生物工程专业的前沿选修课。系统生物学是生命科学的新研究领域,其目的是在系统水平上理解生物体。区别于传统意义上以生物分类为研究内容的“老”系统生物学,新“系统生物学”的研究是后基因组时代,以坚实的分子生物学知识为基础,对“还原论”和分析方法的反思与超越,侧重于“整体论”和综合方法,是建立在分子及其相互作用基础上的生理学,被誉为“21世纪的生物学”。系统生物学代表着生命科学发展总体趋势的大方向。通过本课程的学习,希望学生了解系统生物学的基本概念和研究内容,掌握生物系统分析和建模的基本原理,拓宽视野,培养全局观,形成系统的思维方式,从而更全面地认识和理解生命现象,也有助于把握本世纪生命科学研究的总体方向。 二、课程基本要求 1、了解系统生物学的产生背景和学科体系; 2、理解系统生物学的三大学科基础和两大技术支撑; 3、了解常用的生物信息资源和“组学”的分支及研究现状; 4、掌握系统生物学中的建模方法和仿真手段; 5、了解系统生物学系统水平分析的内容。 三、教学内容及安排 第1章绪论(2学时) 教学目标:了解系统生物学的产生背景,认识系统生物学的研究内容,掌握其研究方法和一般工作流程,并了解系统生物学出现所带来的影响及其应用前景。 本章重点:系统生物学的基本概念和学科体系 难点:系统生物学与生理学的区别 1.1系统生物学的产生背景(了解) 1.1.1生理学 1.1.2分子生物学 1.1.3“组学”与生物信息学 1.2系统生物学的定义和研究内容(掌握) 1.2.1系统生物学的定义 1.2.2系统生物学的研究内容 1.2.3系统生物学的研究方法 1.3系统生物学的应用前景(了解) 第2章生物学基础(4学时) 教学目标:了解生命起源的学说和生命进化的历程,认识细胞的结构、分子组成和物理化学作用,理解并掌握分子生物学的中心法则,特别是其中的信息流动和基因决定作用,了解细胞分裂和个体发育的过程。 本章重点:物质代谢和分子生物学中心法则 难点:基因决定论的是与非 2.1生命的起源与进化(1学时)(了解) 2.1.1生命起源的学说 2.1.2生命的化学进化 2.1.3生命的生物进化 2.2细胞结构与物质代谢(1学时)(掌握) 2.2.1细胞的构成 2.2.2生物分子的合成与分解 2.2.3生物分子中的化学键和重要作用力 2.3分子生物学中心法则(1学时)(掌握) 2.3.1基因表达的信息流向 2.3.2基因表达的调控 2.3.3表达后蛋白的修饰 2.4细胞周期与胚胎发育(1学时)(了解) 2.4.1细胞的分裂过程 2.4.2胚胎的发育过程 第3章系统科学基础(7学时) 教学目标:理解系统的概念,了解系统科学的发展历史和学科精要,知道系统的组织和控制原理,掌握系统的建模和仿真的方法及各种模型适用的问题类型,学会系统的动态分析和仿真误差分析。 本章重点:系统的建模与仿真 难点:系统的动态分析 3.1系统概述(1学时)(了解) 3.1.1系统和系统学的定义 3.1.2系统的组织原理 3.1.3系统的控制 3.2系统建模(2学时)(掌握) 3.2.1系统的网络模型 3.2.2系统的微分方程模型 3.2.3系统的Multi-Agent模型 3.3系统仿真(2学时)(掌握) 3.3.1机械仿真和模拟电路仿真 3.3.2计算机仿真 3.3.3仿真误差分析 3.4系统科学精要(2学时)(了解) 3.3.1系统科学的发展历史 3.3.2老三论(系统论、控制论、信息论)精要 3.3.3新四论(耗散结构理论、协同学、超循环理论、突变论)精要 3.3.4复杂非线性系统科学(混沌、分形、复杂适应系统、人工生命)精要 第4章数学基础(6学时) 教学目标:理解系统建模中用到的线性代数的基础知识,掌握用图论和微分方程描述系统的方法,知道系统生物学中广泛存在的网络模型的实例,并了解生物系统的随机特征及相关的统计学方法。 本章重点:图与网络理论 难点:微分方程的应用 4.1线性代数(1学时)(理解) 4.1.1矢量、矩阵、线性变换 4.1.2线性方程 4.1.3线性与非线性的比较 4.2微分方程与差分方程(2学时)(掌握) 4.2.1常微分方程 4.2.2偏微分方程 4.2.3离散化与差分方程 4.3图和网络理论(2学时)(掌握) 4.3.1图和网络的概念 4.3.2网络分析的内容 4.3.3系统生物学中的网络实例 4.4统计学与随机过程(1学时)(了解) 4.4.1描述性统计 4.4.2统计推断与假设检验 4.4.3随机过程理论 第5章实验技术(4学时) 教学目标:了解系统生物学研究中用到的常规实验技术和高通量技术,了解转基因生物和RNA干扰等手段在系统生物学中的应用,认识四维显微观测技术在细胞系研究中的独特作用。 本章重点:高通量技术 难点:质谱技术 5.1基本技术(1学时)(了解) 5.1.1离心与层析 5.1.2酶切与电泳 5.1.3PCR技术 5.1.4杂交和印迹技术 5.2高通量技术(1学时)(了解) 5.2.1克隆载体与DNA文库 5.2.2DNA和蛋白质芯片 5.2.3酵母双杂交 5.2.4质谱技术 5.2.5ChIP-chip和ChIP-PET技术 5.3转基因生物、RNA干扰(1学时)(了解) 5.4四维显微观测技术(1学时)(了解) 第6章计算技术(5学时) 教学目标:认识计算机技术是系统生物学研究中不可或缺的技术手段之一,掌握一两门高级程序设计语言和面向对象的编程范式,了解数据库和网络技术在计算系统生物学中的应用,知道并行计算技术在处理大规模系统问题时的必要性。 本章重点:高级程序设计语言和脚本语言 难点:面向对象的程序设计 6.1程序设计技术(2学时)(掌握) 6.1.1程序设计语言 6.1.2面向过程与面向对象的程序设计 6.1.3常用的编程工具 6.2数据库技术(1学时)(了解) 6.2.1数据管理方式的演变 6.2.2关系型数据库与SQL语言 6.2.3数据的集成与交换 6.3网络技术(1学时)(理解) 6.3.1计算机网络概述 6.3.2服务器-客户端结构 6.3.3网络开发的LAMP体系 6.4平行计算技术(1学时)(了解) 6.4.1并行计算与串行计算的比较 6.4.2微机集群的架构与应用 6.4.3并行计算的新趋势:基于多核CPU与GPGPU的程序设计 第7章生物信息资源(3学时) 教学目标:掌握常用的生物信息数据库和算法服务,了解常用的系统生物学平台和建模工具。 本章重点:网络建模、分析工具和系统生物学平台。 难点:网络比对的方法。 7.1常用数据库(1学时)(掌握) 7.1.1序列和结构数据库 7.1.2基因表达数据库 7.1.3蛋白相互作用数据库 7.1.4代谢途径数据库 7.1.5动力学和模型数据库 7.2常用的算法和网络服务(1学时)(掌握) 7.2.1序列和结构比对算法 7.2.2进化树构建方法 7.2.3网络建模、比对和分析的方法 7.2.4PyBioS建模环境 7.3常用的建模工具(1学时)(了解) 7.3.1通用建模工具SimuLink和MapleSim 7.3.2Dizzy仿真工具 7.3.3SBW平台 第8章“组学”概述(4学时)(了解) 教学目标:了解“组学”的各个主要分支,认识其研究的意义、内容和现状,关注这些分支的发展趋势及其与系统生物学之间的关系。 本章重点:相互作用组学和代谢物组学。 难点:代谢物组学 8.1基因组学、转录组学、蛋白质组学、糖组学 8.2相互作用组学 8.3代谢物组学 8.4表型组学、系统组学 第9章系统生物学的模型与仿真(11学时) 教学目标:理解当前活跃在系统生物学领域中的主要模型和仿真手段,认识系统生物学的远大目标就是精确地模拟再现各层次的生命活动,并能人工合成生命。 本章重点:系统生物学模型的建模思路及仿真手段。 难点:建模中的关键变量和参数的选取及其对模型可解性的影响。 9.1代谢(3学时)(理解) 9.1.1酶动力学和热力学 9.1.2代谢网络 9.1.3代谢控制分析 9.2信号转导(2学时)(理解) 9.2.1配体-受体相互作用 9.2.2信号通路的构成 9.2.3动力学与调节特征 9.3生物过程建模(3学时)(理解) 9.3.1生物学震荡 9.3.2细胞周期 9.3.3衰老 9.4基因表达与调控(2学时)(理解) 9.4.1E.coli操纵子调控的建模 9.4.2真核基因表达的建模:一个例子、多种方法 9.5虚拟细胞与合成生物学(1学时)(了解) 第10章系统水平分析(3学时)(理解) 教学目标:理解系统生物学中系统分析的主要内容,认识影响系统鲁棒性的因素,正负反馈的作用,及流分析的应用。 本章重点:反馈分析和流分析 难点:流分析 10.1鲁棒性分析 10.2反馈分析 10.3流分析 第11章系统生物学展望(1学时)(了解) 教学目标:认识系统生物学的发展趋势和前沿课题。 四、其它教学环节安排 2学时课堂讨论 五、考核方式及成绩评定 考核方式为开卷考试,总成绩=平时成绩(20%)+期末考试成绩(80%)。平时成绩主要包括考勤和作业,作业主要是让学生阅读相关文献并讨论。 六、教材及主要参考文献 (1) 《系统生物学基础》 北野宏明编;刘笔锋,周艳红等译,化学工业出版社,2007。 (2) 《系统生物学的理论、方法和应用》 柯利普等著;贺福初等译,复旦大学出版社,2007。 (3) 《系统生物学:哲学基础》 布杰德等编著;孙之荣等译,科学出版社,2008。 (4) 张自立,王振英编著,《系统生物学》,科学出版社,2009。 (5)AlberghinaL.&WesterhoffH.V.(Eds.)SystemsBiology:DefinitionsandPerspectives(TopicsinCurrentGenetics),Springer-VerlagBerlinHeidelberg,2005. (6)PalssonB.O.SystemsBiology:PropertiesofReconstructedNetworks,CambridgeUniversityPress,2006. (7) KonopkaA.K.SystemsBiology:Principles,Methods,andConcepts,CRCPress,2006. (8) KrieteA.&EilsR.(Eds.)ComputationalSystemsBiology,ElsevierAcademicPress,2006. (9) WilkinsonD.J.,StochasticModellingforSystemsBiology,CRCPress,2006. (10) SangdunChoi(Eds.)IntroductiontoSystemsBiology,HumanaPress,2007. (11)FrederickB.Marcus,BioinformaticsandSystemsBiology:CollaborativeResearchandResources,Springer-VerlagBerlinHeidelberg,2008. (12)NakanishiS.etc.(Eds.)SystemsBiology:theChallengeofComplexity,SpringerTokyoBerlinHeidelbergNewYork,2009. (13)McDerMottJasonetc.(Eds.)ComputationalSystemsBiology(SpringerProtocals:MethodsinMolecularBiology),HumanaPress,2009. (14) OlegDemin&IgorGoryanin,KineticModellinginSystemsBiology,CRCPress,2009. (15) KlippE.etc.SystemsBiology:ATextbook,Wiley-VCH,2009. (16) 苗东升,《系统科学精要(第2版)》,中国人民大学出版社,2006。 (17) 高隆昌,《系统学原理》,科学出版社,2005。 (18) 岑沛霖等编著,《生物反应工程》,高等教育出版社,2005。 注:限于课时和篇幅,刻意忽略了有关免疫系统和神经系统等领域的系统生物学内容,也较少涉及与疾病(如糖尿病、癌症等)相关的系统生物学研究。 撰稿人:马彬广
个人分类: 未分类|8519 次阅读|1 个评论
SCI收录期刊——计算生物学学科
wanyuehua 2009-4-27 13:07
截至到 2009 年 4 月 SCI 扩展版收录计算生物学学科期刊 30 种( SCI 核心版 17 种),其中 2008 年开始被 SCI 收录的计算生物学期刊 2 种 , 2007 年开始被 SCI 收录的计算生物学期刊 4 种。出版地为英国的计算生物学期刊 14 种,美国 8 种,德国、荷兰各 2 种,新加坡、阿拉伯联合酋长国、新西兰、瑞士各 1 种。 2005-2008 年 SCI 共收录至少有一位中国作者(不包括台湾)的计算生物学学科论文 699 篇,其中 2008 年 225 篇( 0.2250 % ), 2007 年 208 篇( 0.2192 % ), 2006 年 157 篇( 0.1823 % ), 2005 年 109 篇( 0.1411 % )。 699 篇论文包括学术论文 649 篇、会议论文 33 篇、评论 8 篇、社论 4 篇、更正 2 篇、数据库评论 2 篇、会议摘要 1 篇、软件评论 1 篇。 2005-2008 年中国研究论文主要发表在以下几种 SCI 收录的 计算生物学 期刊上: BIOINFORMATICS 《生物信息学》 134 篇、 BMC BIOINFORMATICS 《 BMC 生物信息学》 118 篇、 JOURNAL OF THEORETICAL BIOLOGY 《理论生物学杂志》 93 篇、 JOURNAL OF MOLECULAR GRAPHICS MODELLING 《分子图示法与模型杂志》 46 篇、 STATISTICS IN MEDICINE 《医学统计学》 45 篇、 COMPUTERS IN BIOLOGY AND MEDICINE 《生物学与医学中的计算机》 45 篇、 MEDICAL BIOLOGICAL ENGINEERING COMPUTING 《医学和生物工程与计算》 34 篇。 主要研究单位有中国科学院( CHINESE ACAD SCI ) 106 篇,清华大学( TSING HUA UNIV ) 55 篇, 香港大学( UNIV HONG KONG ) 55 篇, 北京大学( PEKING UNIV ) 40 篇,上海交通大学( SHANGHAI JIAO TONG UNIV ) 35 篇,大连理工大学( DALIAN UNIV TECHNOL ) 33 篇, 香港城市大学( CITY UNIV HONG KONG ) 31 篇, 香港中文大学( CHINESE UNIV HONG KONG ) 26 篇, 复旦大学( FUDAN UNIV ) 24 篇,中国科技大学( UNIV SCI TECHNOL CHINA ) 24 篇。 2009 年 SCI 收录计算生物学学科期刊 30 种 1. ALGORITHMS FOR MOLECULAR BIOLOGY 《 分子生物学算法》 http://www.almob.org/ Irregular (注: 2008 年开始被 SCI 收录) ISSN: 1748-7188 BIOMED CENTRAL LTD, CURRENT SCIENCE GROUP, MIDDLESEX HOUSE, 34-42 CLEVELAND ST , LONDON , ENGLAND , W1T 4LB 1. Science Citation Index Expanded 创刊年 : 2006 出版地 : 英国 2. BIOINFORMATICS 《生物信息学》 http://bioinformatics.oxfordjournals.org/ Monthly ISSN: 1367-4803 OXFORD UNIV PRESS, GREAT CLARENDON ST , OXFORD , ENGLAND , OX2 6DP 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1984 出版地 : 英国 3. BIOMETRICAL JOURNAL 《生物统计杂志》 http://www3.interscience.wiley.com/journal/117861849/grouphome/ home.html Bimonthly ISSN: 0323-3847 WILEY-V C H VERLAG GMBH, PO BOX 10 11 61, WEINHEIM, GERMANY, D-69451 1. Science Citation Index Expanded 创刊年 : 1959 出版地 : 德国 4. BIOMETRICS 《生物统计学》 http://www3.interscience.wiley.com/journal/118538342/home Quarterly ISSN: 0006-341X WILEY-BLACKWELL PUBLISHING, INC, COMMERCE PLACE , 350 MAIN ST , MALDEN , USA , MA, 02148 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1945 出版地 : 美国 5. BIOMETRIKA 《生物测量学》 http://biomet.oxfordjournals.org/ Quarterly ISSN: 0006-3444 OXFORD UNIV PRESS, GREAT CLARENDON ST , OXFORD , ENGLAND , OX2 6DP 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1901 出版地 : 英国 6. BIOSTATISTICS 《生物统计学》 http://biostatistics.oxfordjournals.org/ Quarterly ISSN: 1465-4644 OXFORD UNIV PRESS, GREAT CLARENDON ST , OXFORD , ENGLAND , OX2 6DP 1. Science Citation Index Expanded 创刊年 : 1998 出版地 : 英国 7. BMC BIOINFORMATICS 《 BMC 生物信息学》 http://www.biomedcentral.com/1471-2105/ Irregular ISSN: 1471-2105 BIOMED CENTRAL LTD, CURRENT SCIENCE GROUP, MIDDLESEX HOUSE, 34-42 CLEVELAND ST , LONDON , ENGLAND , W1T 4LB 1. Science Citation Index Expanded 创刊年 : 2000 出版地 : 英国 8. BMC SYSTEMS BIOLOGY 《 BMC 系统生物学》 http://www.biomedcentral.com/bmcsystbiol/ Irregular (注: 2007 年开始被 SCI 收录) ISSN: 1752-0509 BIOMED CENTRAL LTD, CURRENT SCIENCE GROUP, MIDDLESEX HOUSE, 34-42 CLEVELAND ST , LONDON , ENGLAND , W1T 4LB 1. Science Citation Index Expanded 创刊年 : 2007 出版地 : 英国 9. BULLETIN OF MATHEMATICAL BIOLOGY 《数理生物学通报》 http://www.sciencedirect.com/science/journal/00928240 Bimonthly ISSN: 0092-8240 SPRINGER, 233 SPRING ST , NEW YORK , USA , NY, 10013 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1939 出版地 : 荷兰 10. COMPUTATIONAL AND MATHEMATICAL METHODS IN MEDICINE 《医学中的计算和数学方法》 http://www.informaworld.com/smpp/title~content=t713653639~db=all Quarterly (注: 2008 年开始被 SCI 收录) ISSN: 1748-670X ROUTLEDGE JOURNALS, TAYLOR FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXFORDSHIRE, OX14 4RN 1. Science Citation Index Expanded 创刊年 : 1997 出版地 : 英国 11. COMPUTERS IN BIOLOGY AND MEDICINE 《生物学与医学中的计算机》 http://www.sciencedirect.com/science/journal/00104825 Bimonthly ISSN: 0010-4825 PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE , KIDLINGTON, OXFORD , ENGLAND , OX5 1GB 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1971 出版地 : 英国 12. CURRENT BIOINFORMATICS 《当今生物信息学》 http://www.bentham.org/cbio/index.htm Tri-annual (注: 2007 年开始被 SCI 收录) ISSN: 1574-8936 BENTHAM SCIENCE PUBL LTD, EXECUTIVE STE Y26, PO BOX 7917, SAIF ZONE, SHARJAH, U ARAB EMIRATES, 1200 BR 1. Science Citation Index Expanded 创刊年 : 2006 出版地 : 阿拉伯联合酋长国 13. EVOLUTIONARY BIOINFORMATICS 《进化生物信息学》 http://www.la-press.com/journal.php?journal_id=17 Quarterly (注: 2007 年开始被 SCI 收录) ISSN: 1176-9343 BIOINFORMATICS INST, UNIV AUCKLAND , PRIVATE BAG, AUCKLAND , NEW ZEALAND , 00000 1. Science Citation Index Expanded 创刊年 : 2005 出版地 : 新西兰 14. IEEE TRANSACTIONS ON INFORMATION TECHNOLOGY IN BIOMEDICINE 《 IEEE 生物医学信息技术汇刊》 http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=4233 Quarterly ISSN: 1089-7771 IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC, 445 HOES LANE , PISCATAWAY , USA , NJ, 08855 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1997 出版地 : 美国 15. IET SYSTEMS BIOLOGY 《 IET 系统生物学》 http://www.ietdl.org/IET-SYB Bimonthly (注: 2007 年开始被 SCI 收录) ISSN: 1751-8849 INST ENGINEERING TECHNOLOGY-IET, MICHAEL FARADAY HOUSE SIX HILLS WAY STEVENAGE, HERTFORD, ENGLAND, SG1 2AY 1. Science Citation Index Expanded 创刊年 : 2007 出版地 : 英国 16. INTERNATIONAL JOURNAL OF DATA MINING AND BIOINFORMATICS 《国际数据挖掘与生物信息学杂志》 http://www.inderscience.com/browse/index.php?journalCODE=ijdmb Quarterly (注: 2007 年开始被 SCI 收录) ISSN: 1748-5673 INDERSCIENCE ENTERPRISES LTD, WORLD TRADE CENTER BLDG, 29 ROUTE DE PRE-BOIS, CASE POSTALE 896, GENEVA , SWITZERLAND , CH-1215 1. Science Citation Index Expanded 创刊年 : 2006 出版地 : 瑞士 17. JOURNAL OF AGRICULTURAL BIOLOGICAL AND ENVIRONMENTAL STATISTICS 《农业、生物与环境统计学杂志》 http://www.amstat.org/publications/jabes.cfm Quarterly ISSN: 1085-7117 AMER STATISTICAL ASSOC INT BIOMETRIC SOC, 1444 I ST NW, STE 700, WASHINGTON, USA, DC, 20005 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1996 出版地 : 美国 18. JOURNAL OF BIOLOGICAL SYSTEMS 《生物系统杂志》 http://ejournals.worldscientific.com.sg/jbs/jbs.shtml Quarterly ISSN: 0218-3390 WORLD SCIENTIFIC PUBL CO PTE LTD, 5 TOH TUCK LINK, SINGAPORE , SINGAPORE , 596224 1. Science Citation Index Expanded 创刊年 : 1993 出版地 : 新加坡 19. JOURNAL OF COMPUTATIONAL BIOLOGY 《计算生物学杂志》 http://www.liebertonline.com/cmb Bimonthly ISSN: 1066-5277 MARY ANN LIEBERT INC, 140 HUGUENOT STREET , 3RD FL, NEW ROCHELLE , USA , NY, 10801 1. Science Citation Index Expanded 创刊年 : 1994 出版地 : 美国 20. JOURNAL OF COMPUTATIONAL NEUROSCIENCE 《计算神经科学杂志》 http://www.springerlink.com/content/100282/ Bimonthly ISSN: 0929-5313 SPRINGER, VAN GODEWIJCKSTRAAT 30, DORDRECHT, NETHERLANDS, 3311 GZ 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1994 出版地 : 荷兰 21. JOURNAL OF MATHEMATICAL BIOLOGY 《数学生物学杂志》 http://www.springerlink.com/content/100436/ Bimonthly ISSN: 0303-6812 SPRINGER, 233 SPRING ST , NEW YORK , USA , NY, 10013 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1974 出版地 : 美国 22. JOURNAL OF MOLECULAR GRAPHICS MODELLING 《分子图示法与模型杂志》 http://www.sciencedirect.com/science/journal/10933263 Bimonthly ISSN: 1093-3263 ELSEVIER SCIENCE INC, 360 PARK AVE SOUTH , NEW YORK , USA , NY, 10010-1710 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1983 出版地 : 美国 23. JOURNAL OF THEORETICAL BIOLOGY 《理论生物学杂志》 http://www.sciencedirect.com/science/journal/00225193 Semimonthly ISSN: 0022-5193 ACADEMIC PRESS LTD ELSEVIER SCIENCE LTD, 24-28 OVAL RD , LONDON , ENGLAND , NW1 7DX 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1961 出版地 : 英国 24. MATHEMATICAL BIOSCIENCES 《数理生物科学》 http://www.sciencedirect.com/science/journal/00255564 Monthly ISSN: 0025-5564 ELSEVIER SCIENCE INC, 360 PARK AVE SOUTH , NEW YORK , USA , NY, 10010-1710 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1967 出版地 : 美国 25. MATHEMATICAL MEDICINE AND BIOLOGY-A JOURNAL OF THE IMA 《数理医药学与生物学:数学及其应用学会杂志》 http://imammb.oxfordjournals.org/ Quarterly ISSN: 1477-8599 OXFORD UNIV PRESS, GREAT CLARENDON ST , OXFORD , ENGLAND , OX2 6DP 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1984 出版地 : 英国 26. MEDICAL BIOLOGICAL ENGINEERING COMPUTING 《医学和生物工程与计算》 http://www.springerlink.com/content/119997/ Bimonthly ISSN: 0140-0118 SPRINGER HEIDELBERG, TIERGARTENSTRASSE 17, HEIDELBERG, GERMANY, D-69121 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1963 出版地 : 德国 27. PLOS COMPUTATIONAL BIOLOGY 《公共科学图书馆计算生物学》 http://www.ploscompbiol.org/home.action Monthly ISSN: 1553-734X PUBLIC LIBRARY SCIENCE, 185 BERRY ST, STE 1300 , SAN FRANCISCO , USA , CA, 94107 1. Science Citation Index Expanded 创刊年 : 2005 出版地 : 美国 28. SAR AND QSAR IN ENVIRONMENTAL RESEARCH 《环境研究结构活度关系与定量结构活度关系》 http://www.informaworld.com/smpp/title~content=t716100694~db=all Bimonthly ISSN: 1062-936X TAYLOR FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXON, OX14 4RN 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1993 出版地 : 英国 29. STATISTICAL METHODS IN MEDICAL RESEARCH 《医学研究统计方法》 http://smm.sagepub.com/ Bimonthly ISSN: 0962-2802 SAGE PUBLICATIONS LTD, 1 OLIVERS YARD, 55 CITY ROAD , LONDON , ENGLAND , EC1Y 1SP 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1992 出版地 : 英国 30. STATISTICS IN MEDICINE 《医学统计学》 http://www3.interscience.wiley.com/journal/2988/home Semimonthly ISSN: 0277-6715 JOHN WILEY SONS LTD, THE ATRIUM, SOUTHERN GATE, CHICHESTER , ENGLAND , W SUSSEX , PO19 8SQ 1. Science Citation Index 2. Science Citation Index Expanded 创刊年 : 1982 出版地 : 英国
个人分类: SCI投稿|18067 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-15 10:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部