同一个比对结果: format 0: format 6: format 5: 第 1 种格式适合人看,机器识别起来较困难,第 6 种(或第 7 种)格式使用也较多,但是遗憾的是信息不全。第 5 种格式是标准的 XML 格式,人看起来不方便,但机器似乎很喜欢识别这种格式,这篇博文重点使用 Bio.Blast.NCBIXML 解析 Blast 第 5 种格式( XML 格式)。 for record in NCBIXML.parse(open(blast_fmt5.xml)) 其中 record 有 descriptions , alignments , multiple_alignment 列表对象, 还有 Blast , Header , DatabaseReport 和 Parameters 方法。 列表对象可以通过循环获取到,例如: for element in record. descriptions 其中 element 有 title , score , bits , e 和 num_alignments 对象组成。 在 record 的 desciptions 对象中,给出了 Subject ID , bitscore 值, evalue 值等信息 for element in record.alignments 其中 element 有 title , hit_id , hit_def , length 和 hsps 组成。 其中 title 与 descriptions 里的 title 相同, hit_id 不是 subject id 而且自编的一个 id , hit_def 即 subject id 。 其中最重要的是 hsps ,它可以再用一个循环获得。 for hsp in element.hsps 按照以下代码将其中 query , match 和 sbjct 打印出来(一行一个)如下: 代码如下: 当不清楚如何的对应关系时,可以查看 xml 文件,如下: 例如:当不清楚 subject 序列 id 号是什么时,可以 grep blast5.xml 但是很坑的是,很难找到 query id ,因为它并没有在文档中给出,甚至连 help(record) 也看不到,而且用上面 grep blast5.xml 的方式搜索出来的是 query-def ,但是用 query_def 会报错,因为根本就没有这个属性! 原来,它藏在 record 中的属性中,通过 record.query 提取出来! 还有一个 SearchIO 更好用,先 mark 一下,等整理出来再分享
这篇博文以简化的 Needleman-Wunsch 比对算法为例详解比对算法的原理及代码实现。 Needleman-Wunsch 算法是最著名的全局比对算法,在此基础上形成的 Smith-Waterman 算法是最著名的局部比对算法,虽然两者都非常巧妙,但基本原理和代码相差不大,这里仅讲解 Needleman-Wunsch 算法 。 1. Needleman-Wunsch 算法的原理 1970 年 Saul B. Needleman and Christian D. Wunsch 首次将动态规化的思路应用到生物信息学领域,形成了大名鼎鼎的 Needleman-Wunsch 算法,该算法在当前生物信息学领域得到广泛应用,是全局比对算法中最重要的算法。 闲言少述,直接进入正题。以下两条序列进行全局比对为例, Needleman-Wunsch 算法的具体步骤如下: sequence1 GCATGCU sequence2 GATTACA 1.1 初始化矩阵 首先建立一个空的矩阵,矩阵上的行名为 sequence1 的碱基,矩阵的列名为 sequence2 的碱基。因为需要初始值,所有数据区第一行和第一列依次为 -1, -2, -3, -4... 这组递减数列,相连两项之间的差值为 gap 罚分。 这里为了方便起见,采用最一般的罚分,即 match 得 1 分, mismatch 和 gap 罚 1 分(即得 -1 分,以下叙述均用得分表示,若为罚分则得分为负)。 图 1. 初始空矩阵 注: match=1, mismatch=-1, gap=-1 1.2 三个方向移动到当前位点时的综合得分 依次从左上往右下计算出每个位点的得分,计算时先算出从左,从上及从左上角移动到当前位点时的得分,这个得分值为: 不同方向移动综合得分 = 移动前位点的得分 + 移动过程的得分 移动前位点的得分为移动前位点方框中的值,移动过程的得分按 1.1 中的得分约定计算如下: Ø 从上往下和从左往右移动时都会引入 gap ,前者是在横向这条序列上引入 gap ,后者是在纵向这条序列上引入 gap ,因此都会得 -1 分; Ø 从左上往右下方向移动时,如果当前位点横向和纵向对应碱基一致,表明为 match ,得 1 分;如果当前位点横向和纵向对应碱基不一致,表明为 mismatch ,得 -1 分。 具体示意图如下: 图 2. 三个方向移动时综合得分 值得一提的是, Smith-Waterman 算法 仅在此基础上加入一个 0 值,让上述三个方向上的值与 0 ,共四个值比较大小。而且在最开始初始化矩阵时将初始行初始列的值都设为 0 。这样整个矩阵中的值没有负值。因此可以从任何位置开始,后面回溯时从矩阵中最大的值开始回溯,这样就可以达到局部比对的效果,真的是太精妙了! 1.3 当前位点得分 从三个方向(从上到下,从左到右,从左上到右下)移动到当前位点的综合得分的最大值,即为当前位点得分。 那么由上图 2 中可得三个方向移动到当前位点时的最大得分为 max(1, -2, -2) = 1 即当前位点得分为 1 (图中表格第三行第三列值为 1 ) 按照以上原则,将矩阵上每个位点都计算出来,填满整个表格。 强列建议大家手动算一次 ,实际计算会让思路更加清晰,这对后面写代码实现非常有帮助! 我手动计算结果如下,与 wiki 百科 上的一致。 图 3. 整个矩阵的结果图 1.4 回溯获取最佳比对结果 沿右下角向左上角回溯,每个位点依然有三个位置,左上,左边和上边,如果最大值出现在上面,则横向这条序列引入一个 gap (-) ,纵向这条序列取该处碱基;如果最大值出现在左边,则纵向这条序列引入一个 gap (-) ,横向这条序列取该处碱基 ; 如果最大值出现在左上角,则不引入 gap ,纵向和横向均取该处碱基。这样获取到两段序列,再反转过来(因为序列是从后往前回溯的)即为最终结果。 图 4. 回溯找最佳路径 2. 用 Python 实现全局比对 方便起见,这里仅用了原生python实现算法,具体代码如下,有兴趣的朋友也可以使用cython或python数据分析包,或者其它语言实现,并欢迎贴到讨论区,谢谢。 --------------------- 可下载代码源文件 global_alignment.py --------------------- #!/usr/bin/env python import sys __author__ = 'luria@sohu.com' __date__ = '2018.05.04' __version__ = 'v1.0' def main(self, subject, query): match, mismatch, gap = 1, -1, -1 # if you wanna to use other score matrix, # you could do code reactoring as a practice pos_dict = {(i, j): 0 for i in xrange(len(subject)+1) for j in xrange(len(query)+1)} for k in pos_dict: if not k and not k : pos_dict = 0 elif not k and k : pos_dict = k * gap elif not k and k : pos_dict = k * gap # print pos_dict # this step must be follow first loop for i in xrange(1, len(subject)+1): for j in xrange(1, len(query)+1): up2down = pos_dict + gap left2right = pos_dict + gap if subject == query : topleft2bottomright = pos_dict + match else: topleft2bottomright = pos_dict + mismatch pos_dict = max(up2down, left2right, topleft2bottomright) # print matrix ''' for i in xrange(len(subject)+1): temp = )) print \\t.join(temp) ''' out_subject, out_query = '', x, y = len(subject), len(query) while 1: if not x and not y: break direct_dict = { up : pos_dict , left : pos_dict , top_left : pos_dict } #print direct_dict order = sorted(direct_dict.iteritems(), key=lambda o:o , reverse=True) # only get one best path at this program, # you can get all best path if you like if order == up: out_subject += - out_query += query x -= 1 elif order == 'left': out_query += - out_subject += subject y -= 1 else: out_subject += subject out_query += query x -= 1 y -= 1 print out_subject print .join( == out_query else for i in xrange(len(out_subject))] ) print out_query print if __name__ == '__main__': if len(sys.argv) == 1: sys.exit( global_align.py subject query) main(*sys.argv) 参考材料: https://en.wikipedia.org/wiki/Smith-Waterman_algorithm https://en.wikipedia.org/wiki/Needleman-Wunsch_algorithm
iNature :对于全球最高引的前100篇文章,篇均引用量是 34834.92 次;这100篇文章主要聚集在 生物化学及分子生物学领域;这100篇文章中, 发表在PHYSICAL REVIEW B杂志及JBC杂志都是发表了7篇文章;对于这100篇文章,产出率最高的机构是加州大学;总的来说,这100篇文章主要是聚集在基础研究, 如蛋白质的定量,蛋白质的分析,实时定量PCR技术,BLAST的诞生,DNA测序,同源序列比对等方面。 iNature编辑组的统计时间是2017年11月26日。 1 引用量最高的10000篇文章分析 我们以Web of Science为基础,通过相关的检索,从1874-2018年,总共检索到 120611782条记录( 图.1 )。 图.1 总文章数 我们对于所有的文章进行了分类归档,发现引用次数大于10万次,为第一档,有3篇文章;第二档的引用量是5-10万次,有9篇文章;第三档的引用量是1-5万次,有238篇文章;第四档的引用量是5000-1万次,有748篇文章;第五档的引用量是1000-5000次,有22994篇文章;第六档的引用量是500-1000次,有68509篇文章; 第七档的引用量是小于500次,有120519371篇文章 ( 图.2 ) 。 文章分档 引用次数 文章数 累加文章数 I 10万 3 II 5-10万 9 12 III 1-5万 238 250 IV 5000-1万 748 998 V 1000-5000 22994 23902 VI 500-1000 68509 92411 VII 500 120519371 120611782 图.2 所有文章的归档分类 之后我们根据引用量从高到底,进行排序,我们筛选了10000条记录(因为Web of Science最多只能一次分析10000条记录),进行相应的统计分析。 我们发现每篇文章的平均引用次数是3173.14次,总引用次数是31731393次,施引文献是14692585 ( 图.3 ) 。另外,我们发现,最高引用文章大部分都聚集在1990-2010年之间,达到了40%以上。 图.3 10000篇文章引用分析 之后,我们看了一下不同时间段,对于这些文章的引用次数分析,发现绝大部分引用都是聚集在1990-2016年之间( 图.4 )。 图.4 10000篇文章不同时间段引用分析 由于分析10000篇文章,工作量太大,我们就直接分析前100篇文章,发现前100篇文章的平均引用量是34834.92次,总引用次数是3483492次,施引文献达到2627346篇。这100篇文章,占前10000篇的总引用的10.98%,但是总文章数是1.00%,故我们主要分析这100篇文章 ( 图.5 ) 。 图.5 100篇文章引用分析 2 引用量最高的100篇文章分析 对于这100文章发表的时间进行分析,我们发现在1950年以前只有4篇,1950-1960年之间,有10篇;1961-1970年,有9篇;1971-2010年,总共有74篇,占了绝大部分;2010年以后,只有3篇文章( 图.6 ),这三篇文章分别是遗传进化( MEGA5: Molecular Evolutionary Genetics Analysis Using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods,2011年),癌症综述( Hallmarks of Cancer: The Next Generation,2011年 ),全球癌症统计( Global Cancer Statistics,2011年 ) 。 图.6 100篇文章发表时间分析 其次我们对这100篇文章的种类进行了基本分析,发现生物化学及分子生物学方面有35篇,物理学有15篇,化学有14篇,数学11篇 ( 图.7 ) 。 图.7 100篇文章方向分析 我们再次对这100篇文章发表的杂志进行分析(3篇),发表在PHYSICAL REVIEW B杂志及JBC杂志都是7篇文章;ANALYTICAL BIOCHEMISTRY,JOURNAL OF CHEMICAL PHYSICS,NATURE,NUCLEIC ACIDS RESEARCH都是发表了4篇文章,总的来说,这高引用的100篇文章,大部分都是生物,物理,生物化学及化学方面的文章。另外这9个杂志占了39篇文章 ( 图.8 ) 。 图.8 100篇文章杂志分析 我们再次统计了国家,发现美国有44篇,占了绝大部分,其次是英国,达到9篇;德国有6篇,很遗憾,没有发现有中国参与的文章 ( 图.9 ) 。 图.9 100篇文章国家分布 我们对研究机构统计了一下,发现加州大学系统占的比例最大,达到了7篇,其次是宾夕法尼亚州立大学,达到了4篇 ( 图.10 ) 。 图.10 100篇文章的大学或研究所分析 3 引用量最高的100篇文章列表 对于这100篇文章,主要是技术的变革及基础研究,如蛋白质的定量,蛋白质的分析,实时定量PCR技术,BLAST的诞生,DNA测序,同源序列比对等,这些东西都是非常的基础,故这也注定了它们的高引用量 ( 图.11 ) 。 标题 总引用次数 年均引用 1 PROTEIN MEASUREMENT WITH THE FOLIN PHENOL REAGENT 335844 5012.6 2 CLEAVAGE OF STRUCTURAL PROTEINS DURING ASSEMBLY OF HEAD OF BACTERIOPHAGE-T4 244785 5099.69 3 RAPID AND SENSITIVE METHOD FOR QUANTITATION OF MICROGRAM QUANTITIES OF PROTEIN UTILIZING PRINCIPLE OF PROTEIN-DYE BINDING 201313 4793.17 4 DNA SEQUENCING WITH CHAIN-TERMINATING INHIBITORS 66790 1629.02 5 DENSITY-FUNCTIONAL THERMOCHEMISTRY .3. THE ROLE OF EXACT EXCHANGE 65244 2609.76 6 Generalized gradient approximation made simple 63484 2885.64 7 SINGLE-STEP METHOD OF RNA ISOLATION BY ACID GUANIDINIUM THIOCYANATE PHENOL CHLOROFORM EXTRACTION 63161 2037.45 8 DEVELOPMENT OF THE COLLE-SALVETTI CORRELATION-ENERGY FORMULA INTO A FUNCTIONAL OF THE ELECTRON-DENSITY 61406 2046.87 9 A short history of SHELX 58640 5864 10 Analysis of relative gene expression data using real-time quantitative PCR and the 2(T)(-Delta Delta C) method 58159 3421.12 11 ELECTROPHORETIC TRANSFER OF PROTEINS FROM POLYACRYLAMIDE GELS TO NITROCELLULOSE SHEETS - PROCEDURE AND SOME APPLICATIONS 55121 1413.36 12 A SIMPLE METHOD FOR THE ISOLATION AND PURIFICATION OF TOTAL LIPIDES FROM ANIMAL TISSUES 51444 843.34 13 BASIC LOCAL ALIGNMENT SEARCH TOOL 49116 1754.14 14 CLUSTAL-W - IMPROVING THE SENSITIVITY OF PROGRESSIVE MULTIPLE SEQUENCE ALIGNMENT THROUGH SEQUENCE WEIGHTING, POSITION-SPECIFIC GAP PENALTIES AND WEIGHT MATRIX CHOICE 47444 1976.83 15 Gapped BLAST and PSI-BLAST: a new generation of protein database search programs 45557 2169.38 16 NONPARAMETRIC-ESTIMATION FROM INCOMPLETE OBSERVATIONS 44604 743.4 17 MINI-MENTAL STATE - PRACTICAL METHOD FOR GRADING COGNITIVE STATE OF PATIENTS FOR CLINICIAN 43637 1014.81 18 A REVISED MEDIUM FOR RAPID GROWTH AND BIO ASSAYS WITH TOBACCO TISSUE CULTURES 41340 738.21 19 THE NEIGHBOR-JOINING METHOD - A NEW METHOD FOR RECONSTRUCTING PHYLOGENETIC TREES 38735 1249.52 20 A RAPID METHOD OF TOTAL LIPID EXTRACTION AND PURIFICATION 37927 642.83 21 REVISED EFFECTIVE IONIC-RADII AND SYSTEMATIC STUDIES OF INTERATOMIC DISTANCES IN HALIDES AND CHALCOGENIDES 37143 884.36 22 DENSITY-FUNCTIONAL EXCHANGE-ENERGY APPROXIMATION WITH CORRECT ASYMPTOTIC-BEHAVIOR 34065 1135.5 23 SELF-CONSISTENT EQUATIONS INCLUDING EXCHANGE AND CORRELATION EFFECTS 33872 639.09 24 Efficient iterative schemes for ab initio total-energy calculations using a plane-wave basis set 33658 1529.91 25 The moderator-mediator variable distinction in social psychological research: conceptual, strategic, and statistical considerations. 33191 1037.22 26 Processing of X-ray diffraction data collected in oscillation mode 32667 1555.57 27 The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC) 32391 2313.64 28 DETECTION OF SPECIFIC SEQUENCES AMONG DNA FRAGMENTS SEPARATED BY GEL-ELECTROPHORESIS 32239 749.74 29 REGRESSION MODELS AND LIFE-TABLES 32022 696.13 30 COLORIMETRIC METHOD FOR DETERMINATION OF SUGARS AND RELATED SUBSTANCES 31882 514.23 31 RAPID COLORIMETRIC ASSAY FOR CELLULAR GROWTH AND SURVIVAL - APPLICATION TO PROLIFERATION AND CYTO-TOXICITY ASSAYS 31292 894.06 32 The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools 30770 1465.24 33 HELICAL MICROTUBULES OF GRAPHITIC CARBON 30386 1125.41 34 STATISTICAL METHODS FOR ASSESSING AGREEMENT BETWEEN TWO METHODS OF CLINICAL MEASUREMENT 29847 932.72 35 FUZZY SETS 29740 561.13 36 CONTROLLING THE FALSE DISCOVERY RATE - A PRACTICAL AND POWERFUL APPROACH TO MULTIPLE TESTING 29691 1290.91 37 Electric field effect in atomically thin carbon films 28520 2037.14 38 INHOMOGENEOUS ELECTRON GAS 27972 518 39 CONFIDENCE-LIMITS ON PHYLOGENIES - AN APPROACH USING THE BOOTSTRAP 27721 840.03 40 SPECIAL POINTS FOR BRILLOUIN-ZONE INTEGRATIONS 27045 643.93 41 MEGA5: Molecular Evolutionary Genetics Analysis Using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods 26581 3797.29 42 USE OF LEAD CITRATE AT HIGH PH AS AN ELECTRON-OPAQUE STAIN IN ELECTRON MICROSCOPY 25405 461.91 43 From ultrasoft pseudopotentials to the projector augmented-wave method 25057 1318.79 44 MEASUREMENT OF OBSERVER AGREEMENT FOR CATEGORICAL DATA 25005 609.88 45 PROJECTOR AUGMENTED-WAVE METHOD 24314 1013.08 46 MEGA4: Molecular evolutionary genetics analysis (MEGA) software version 4.0 24066 2187.82 47 RELIABILITY OF MOLECULAR WEIGHT DETERMINATIONS BY DODECYL SULFATE-POLYACRYLAMIDE GEL ELECTROPHORESIS 23835 486.43 48 THE ATTRACTIONS OF PROTEINS FOR SMALL MOLECULES AND IONS 23763 344.39 49 ISOLATION OF BIOLOGICALLY-ACTIVE RIBONUCLEIC-ACID FROM SOURCES ENRICHED IN RIBONUCLEASE 23574 604.46 50 The colorimetric determination of phosphorus 23420 251.83 51 Cutoff Criteria for Fit Indexes in Covariance Structure Analysis: Conventional Criteria Versus New Alternatives 22755 1197.63 52 Particle swarm optimization 22586 982 53 DISC ELECTROPHORESIS .2. METHOD AND APPLICATION TO HUMAN SERUM PROTEINS 22463 415.98 54 MAXIMUM LIKELIHOOD FROM INCOMPLETE DATA VIA EM ALGORITHM 22259 542.9 55 A TECHNIQUE FOR RADIOLABELING DNA RESTRICTION ENDONUCLEASE FRAGMENTS TO HIGH SPECIFIC ACTIVITY 21557 615.91 56 Efficiency of ab-initio total energy calculations for metals and semiconductors using a plane-wave basis set 21539 979.05 57 NEW LOOK AT STATISTICAL-MODEL IDENTIFICATION 21172 481.18 58 Global Cancer Statistics 20983 2997.57 59 A NEW GENERATION OF CA-2+ INDICATORS WITH GREATLY IMPROVED FLUORESCENCE PROPERTIES 20677 626.58 60 CLINICAL-DIAGNOSIS OF ALZHEIMERS-DISEASE - REPORT OF THE NINCDS-ADRDA WORK GROUP UNDER THE AUSPICES OF DEPARTMENT-OF-HEALTH-AND-HUMAN-SERVICES TASK-FORCE ON ALZHEIMERS-DISEASE 20596 605.76 61 THE ASSESSMENT AND ANALYSIS OF HANDEDNESS: THE EDINBURGH INVENTORY 20514 436.47 62 The rise of graphene 20505 1864.09 63 Distinctive image features from scale-invariant keypoints 20258 1447 64 A RATING SCALE FOR DEPRESSION 20238 348.93 65 AN INVENTORY FOR MEASURING DEPRESSION 20104 352.7 66 EQUATION OF STATE CALCULATIONS BY FAST COMPUTING MACHINES 19396 298.4 67 ESTIMATION OF CONCENTRATION OF LOW-DENSITY LIPOPROTEIN CHOLESTEROL IN PLASMA, WITHOUT USE OF PREPARATIVE ULTRACENTRIFUGE 19380 421.3 68 HIGH-RESOLUTION 2-DIMENSIONAL ELECTROPHORESIS OF PROTEINS 19179 446.02 69 COMPARISON OF SIMPLE POTENTIAL FUNCTIONS FOR SIMULATING LIQUID WATER 19023 543.51 70 THE MOS 36-ITEM SHORT-FORM HEALTH SURVEY (SF-36) .1. CONCEPTUAL-FRAMEWORK AND ITEM SELECTION 18987 730.27 71 MicroRNAs: Genomics, biogenesis, mechanism, and function 18845 1346.07 72 PHASE ANNEALING IN SHELX-90 - DIRECT METHODS FOR LARGER STRUCTURES 18787 670.96 73 A LOW-COST, HIGH-EFFICIENCY SOLAR-CELL BASED ON DYE-SENSITIZED COLLOIDAL TIO2 FILMS 18733 693.81 74 GAUSSIAN-BASIS SETS FOR USE IN CORRELATED MOLECULAR CALCULATIONS .1. THE ATOMS BORON THROUGH NEON AND HYDROGEN 18531 639 75 OPTIMIZATION BY SIMULATED ANNEALING 18374 524.97 76 A NEW METHOD OF CLASSIFYING PROGNOSTIC CO-MORBIDITY IN LONGITUDINAL-STUDIES - DEVELOPMENT AND VALIDATION 18044 582.06 77 MrBayes 3: Bayesian phylogenetic inference under mixed models 17994 1199.6 78 TISSUE SULFHYDRYL GROUPS 17989 304.9 79 VMD: Visual molecular dynamics 17956 816.18 80 METAANALYSIS IN CLINICAL-TRIALS 17945 560.78 81 IMPROVED PATCH-CLAMP TECHNIQUES FOR HIGH-RESOLUTION CURRENT RECORDING FROM CELLS AND CELL-FREE MEMBRANE PATCHES 17744 479.57 82 HOMEOSTASIS MODEL ASSESSMENT - INSULIN RESISTANCE AND BETA-CELL FUNCTION FROM FASTING PLASMA-GLUCOSE AND INSULIN CONCENTRATIONS IN MAN 17634 534.36 83 A SIMPLE METHOD FOR DISPLAYING THE HYDROPATHIC CHARACTER OF A PROTEIN 17621 489.47 84 Measuring inconsistency in meta-analyses 17584 1172.27 85 MEASUREMENT OF PROTEIN USING BICINCHONINIC ACID 17573 532.52 86 THE HOSPITAL ANXIETY AND DEPRESSION SCALE 17458 498.8 87 STUDY OF THE CONDITIONS AND MECHANISM OF THE DIPHENYLAMINE REACTION FOR THE COLORIMETRIC ESTIMATION OF DEOXYRIBONUCLEIC ACID 17232 277.94 88 The Protein Data Bank 17152 952.89 89 The NCEP/NCAR 40-year reanalysis project 17118 778.09 90 Collective dynamics of 'small-world' networks 17044 852.2 91 Hallmarks of Cancer: The Next Generation 16913 2416.14 92 ABINITIO MOLECULAR-DYNAMICS FOR LIQUID-METALS 16788 671.52 93 Bias in meta-analysis detected by a simple, graphical test 16785 799.29 94 DETERMINATION OF SERUM PROTEINS BY MEANS OF THE BIURET REACTION 16754 242.81 95 A MATHEMATICAL THEORY OF COMMUNICATION 16715 238.79 96 PROCHECK - A PROGRAM TO CHECK THE STEREOCHEMICAL QUALITY OF PROTEIN STRUCTURES 16710 668.4 97 MODELTEST: testing the model of DNA substitution 16619 830.95 98 MULTIPLE RANGE AND MULTIPLE F TESTS 16580 263.17 99 ESTIMATING DIMENSION OF A MODEL 16551 413.78 100 A SIMPLE METHOD FOR ESTIMATING EVOLUTIONARY RATES OF BASE SUBSTITUTIONS THROUGH COMPARATIVE STUDIES OF NUCLEOTIDE-SEQUENCES 16492 434 图.11 前100篇文章列表 注: 所有的数据来源为Web of science。 温馨提示 : iNature微信公众号是介绍一流的,最前沿的科研成果,提供专业的完整的同行解析;另外也会介绍全世界知名的实验室及业界大师;同时为公众提供一个了解生命科学及科研过程的平台。
我在@知乎回答了问题: “你所在的领域里,有哪些堪称开山之作的论文?” ,分享在这里: 作为生物信息的码农,生物信息领域的开山之作,个人觉得这篇BLAST(局域联配搜索基础工具)的论文是当之无愧的: Basic local alignment search tool SF Altschul , W Gish, W Miller , EW Myers … - Journal of molecular …, 1990 - Elsevier 生物信息是用计算机科学的方法研究生物学的领域。而生物学中信息的最主要载体DNA和蛋白质都是序列化的,生物的进化使得序列间存在大量的相似性,称为同源性。所以序列比对对于基因组研究至关重要。 在BLAST之前,计算机科学家已经有了一系列基于动态规划的算法进行序列比对,但单纯的动态规划算法所需的时间是与序列长度的平方成正比,虽然对计算机科学这已经很不错了,可对于成亿长度规模的基因组,上万条的序列同时进行分析,这个速度还是不能忍受的。 BLAST的出现改变这种情况,它采用了启发式的算法,基于文章通讯作者在1985年发明的FASTA算法。这个算法虽然不是严格的找最优解,但由于该方法抓住的生物序列的主要特征,在绝大多数情况下都能得到最优解。而在速度上,比前人的算法提高了50倍,别小看了这50倍,这使得序列对数据库的比对成为可能(BLAST一般的分析几分钟就能完成一条序列对大数据库的比对,想想这在以前的方法要几小时呀)。在此基础上,BLAST又革命性的引入了对数据库比对结果打分排序的统计方法,使结果分析更加清晰可靠。从此BLAST开启了序列比对应用的时代,也开启了生物信息学的时代。 BLAST由于其算法和软件的实用性,且得到了NCBI的大力推广,其文章得到了大量的引用。到2017年,Google Scholar上引用该文66,000多次,加上同一作者在1997年的加强版gapped-BLAST(62,000次引用),BLAST稳居生物信息领域第一牛文,也是人类历史上引用率最高的论文之一。 参考: 1, http:// abc.cbi.pku.edu.cn/semi nar/caas13s2-02.pdf 2, What Are The Most Cited Research Papers Of All Time?
Using BLASTClust to Make Non-redundant Sequence Sets BLASTClust is a program within the standalone BLAST package used to cluster either protein or nucleotide sequences. The program begins with pairwise matches and places a sequence in a cluster if the sequence matches at least one sequence already in the cluster. In the case of proteins, the blastp algorithm is used to compute the pairwise matches; in the case of nucleotide sequences, the Megablast algorithm is used. In the simplest case, BLASTClust takes as input a file containing catenated FASTA-format sequences, each with a unique identifier at the start of the definition line. BLASTClust formats the input sequence to produce a temporary BLAST database, performs the clustering, and removes the database at completion. Hence, there is no need to run formatdb in advance to use BLASTClust. The output of BLASTClust consists of a file, one cluster to a line, of sequence identifiers separated by spaces. The clusters are sorted from the largest cluster to the smallest. BLASTClust accepts a number of parameters that can be used to control the stringency of clustering including thresholds for score density, percent identity, and alignment length. The BLASTClust program has a number of applications, the simplest of which is to create a non-redundant set of sequences from a source database. As an example, one might have a library of a few thousand short nucleotide sequence reads and wish to replace these with a non-redundant set. To produce the non-redundant set, one might use: blastclust -i infile -o outfile -p F -L .9 -b T -S 95 The sequences in infile will be clustered and the results will be written to outfile. The input sequences are identified as nucleotide (-p F); -p T, or protein, is the default. To register a pairwise match two sequences will need to be 95% identical (-S 95) over an area covering 90% of the length (-L .9) of each sequence (-b T) . Using -b F instead of -b T would enforce the alignment length threshold on only one member of a sequence pair. The parameter S, used here to specify the percent identity, can also be used to specify, instead, a score density. The latter is equivalent to the BLAST score divided by the alignment length. If S is given as a number between 0 and 3, it is interpreted as a score density threshold; otherwise it is interpreted as a percent identity threshold. To create a stringent non-redundant protein sequence set, use the following command line: blastclust -i infile -o outfile -p T -L 1 -b T -S 100 In this case, only sequences which are identical will be clustered together. The “blastclust.txt” file in the standalone BLAST package details the full range of BLASTClust parameters.
blast是机器猫的口袋,里面的工具五花八门,却不能乱用。 可能你对blastx、blastn、blastp都很了解,却不太会注意到还有个seedtop。 前三种工具可用于较长序列的比对,可以容忍简并碱基的存在,把他们一律当成N来处理; 也可用于短序列 比对,但不允许有模糊的简并碱基存在。 如果你想从输入序列中找到哪些序列包含目标结构域motif以及所在的位置,或找出哪些motif出现在这些序列中,就要通过结构域与该序列进行比对来实现。 通常结构域是短的,并且带有简并碱基,例如 AACNNNNNNRTAYG ,这时就可以用seedtop来进行序列比对。 它就在本地化blast包里面,用法如下: 1.结构域输入格式: ID motif1 PA -G-E-x- - -x(5,11)-R- -A-x- -x- . \ ID motif2 PA - -x-{H}-G- -x- -{L}-x- (4)-x(2)-G. 2.数据库格式化 用formatdb将fasta格式的数据库格式化 3.命令 seedtop -k pattern.txt -d refseq_protein -p patternp -o db.out 4.输出结果 seqno=892602 gi|33859524|ref|NP_034048.1| ID Cyclic nucleotide-binding domain signature 1 PA - -x-{H}-G- -x- -{L}-x- (4)-x(2)-G HI (449 450) (452 454) (456 457) (459 462) (465 465) seqno=892873 gi|51470807|ref|XP_290552.4| ID Cyclic nucleotide-binding domain signature 1 PA - -x-{H}-G- -x- -{L}-x- (4)-x(2)-G HI (374 375) (377 379) (381 382) (384 387) (390 390) 具体用法解释参考资料: BLAST Program Selection Guide Search for Sequence Patterns Using seedtop 附: 国际纯化学和应用化学联合会碱基符号 Deoxyadenine A Deoxycytosine C Deoxyguanidine G DeoxyThymidine T Deoxyuracil U Deoxyinosine I A+C+G V A+T+G D T+C+G B A+T+C H A+T W C+G S T+G K A+C M C+T Y A+G R A+G+C+T N