科学网

 找回密码
  注册

tag 标签: Omni

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

闲聊几句计算生物学 by Omni
热度 13 zhangt10 2014-4-18 08:51
闲聊几句计算生物学 Omni 平时工作太忙,来科学网一般只读不评。但作为计算生物学的业内人士,我觉得薛宇博友的《 生物信息之拍案惊奇 》博文系列戏说成分太过,被科学网编辑推到首页后似乎有些失控。为了避免有志于从事计算生物学的青年学生被该文误导,我觉得有必要破例写几句来正本清源 (setting the record straight) 。 David Mount 的教科书确实不错,可惜第一版发行时兄弟已在美国博士毕业并从事制药业研发工作一年有余。 2003 年 3 月回国探亲,顺便访问北大罗静初教授时蒙他赠送了科学出版社的英文影印版。虽然该版本没有彩图而且大多数内容早就通过其它教科书掌握,但我后来还是经常抽空拿出来翻翻。从薛博友的文中可以看出,他当年对该书的阅读学习不够深入,在此略微点评几处要点: (1) 薛博友说 Dayhoff 经典论文 ( http://www.bio-recipes.com/Dayhoff/dayhoff1978.pdf ) 中显出她的数学能力较差,我还真没看出来。希望有数学功力深厚的网友能具体指出文中哪一页哪一段有问题,也好让兄弟学习一下。 Dayhoff 在 1970 年代就能想到将 Markov 链的概念引入分子演化 (molecular evolution) 是相当有洞察力的,可看成是后来 1990 年代初 David Haussler 小组将隐 Markov 模型 (HMM) 引入计算生物学的先驱思想之一,在此之前 HMM 只在语音识别领域有成功的应用。 Dayhoff 的数理功底至少让她知道 Markov 矩阵在多次自乘之后会在数值上收敛,于是 PAM120 和 PAM250 等就能作为序列联配的打分矩阵。毫无疑问, PAM 矩阵是后来所有打分矩阵 ( 其中以 BLOSUM62 最为有用 ) 的先驱,其历史意义相当深远 。 Dayhoff 在原始论文中对 PAM 这个缩写 (acronym) 如何拼出确实有个微不足道的笔误,我当年阅读时顺手在复印件上做了“ Percentage of Accepted Mutations ”的改错式批注。这样一改就与 PAM 缩写完全吻合,而且更符合 PAM 矩阵内元素的精确定义。 David Mount 在这点上与我基本上不谋而合,他在教科书第一版 78 页也指出 PAM =Percent Accepted Mutation 。 (2)Mount 第一章 Historical Introduction 写得很好,凡是他认为重要的历史人物都附上照片,而第一张照片就是 Dayhoff 。这样安排的潜台词非常明显。薛博友居然因为 Mount 正文里引用了 Sanger Tuppy, 1951 就把 Sanger 老先生和生物信息学扯上关系,娱乐性显然有些过头。而且我认为根本不存在公认的 ” 生物信息学之父 / 母 “ ,很多科学家都做出了重要的早期贡献,这和“全息生物学”之类的伪科学有自封为鼻祖还梦想得炸药奖的狂人有本质不同; (3) 薛博友对 Temple Smith 的历史地位严重高估。计算生物学领域当选美国科学院院士的屈指可数,我知道的有以下四位名教授: Waterman, Lander, Lipman, Haussler ( 若有遗漏,欢迎补充 ) 。熟悉计算生物学发展史的博友都知道, Waterman 当选而 Smith 落选并不是因为后者过于低调而受到不公待遇。当年 GenBank 元老中的领军人物是 WalterGoad , Smith 也有相当的贡献。但 Smith 在 Los Alamos 当物理学家时就资质平平,数学能力根本不能和 Waterman 相比。 Waterman 除了有名的 S-W 算法之外,另有一项具有同等甚至更大份量的工作: Lander-Waterman 理论 ( http://en.wikipedia.org/wiki/DNA_sequencing_theory#Lander-Waterman_theory ) 在后来人类基因组测序项目中起了奠基石的作用。另外请注意一个重要细节: Mount 书中两人照片一起出现时, Waterman 在上而 Smith 在下。无论是姓氏的字母顺序,还是 1981 年两篇经典论文的署名次序都与 Mount 的安排相反,我认为 Mount 兄品人很有眼光! (4)Smith-Waterman 算法 (1981) 的历史地位也被薛博友高估了。此项工作前 Needleman Wunsch (1970) 将 Bellman 发表于 1960 年代的动态规划算法 ( 在此大力推荐 Dover 版 Bellman 名著 ) 引入生物序列联配,后有 BLAST 算法这一里程碑式突破 (Lipman 当选院士的主要依据 ) 。在此建议凡是对 BLAST 有不屑看法的青年学生先去攻读 O'Reilly 出版社的《 BLAST 》一书 (Ian Korf et al, 2003) ,最好将书中的 Perl 程序都在 Linux 系统上认真运行一遍,然后再来科学网发表评论不迟。而且 Mount 的书再好也是生物学家写的,自学计算生物学的学生只读这一本是远远不够的。支撑计算生物学这只大鼎的三条腿缺一不可: Statistics, Computer Science, Biology 。从统计学角度写得最好的教科书是 Statistical Methods inBioinformatics (Ewens Grant) 。而从算法学角度写得最好的则是 Pavel Pevzner(Waterman 的博士后 ) 的几本书,其中最值得花时间研读的是 An Introduction to Bioinformatics Algorithms 。 (5) 传统实验生物学出身的 Mount 能在书中以相当篇幅介绍贝氏统计学 (Bayesian Statistics) 勇气可嘉!但限于作者在数理统计上有限的功力,想通过此书学透 HMM 和贝氏统计学在生物信息学上的应用是不可能的。有志攻难关的同学可以参考 Ewens Grant 书中的 HMM 章节以及大家公认比较难读懂的 1998 年名著 ”BiologicalSequence Analysis” (Durbin et al) 。 ----------- 博主附言: 看到Omni兄的精彩评论,觉得埋没在留言里实在太可惜了。联系后作者发来编辑后的文章,在这里代为发表。 各位的讨论有请Omni兄自行总结回复。 另提醒对有关课题感兴趣的博友,国际系统生物学会( http://www.issb.org/ )的第15届国际系统生物学年会将于今年9月14-18日在澳大利亚墨尔本召开,late-breaking abstract submission大约6月开启。第16届年会将第一次来到日本以外的亚洲国家,于2015年8月在上海召开。
个人分类: 未分类|7738 次阅读|22 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 05:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部