科学网—标签

相关帖子	版块	作者	回复/查看	最后发表

mashengwei 2019-4-27 15:30

错过就可惜了 | NCBI blast 结果页面更新啦先吐槽下题目的前半段，这是标题党。废话不多数，看图说话。 image-20190427151813607

luria 2018-7-19 15:57

同一个比对结果： format 0: format 6: format 5: 第 1 种格式适合人看，机器识别起来较困难，第 6 种（或第 7 种）格式使用也较多，但是遗憾的是信息不全。第 5 种格式是标准的 XML 格式，人看起来不方便，但机器似乎很喜欢识别这种格式，这篇博文重点使用 Bio.Blast.NCBIXML 解析 Blast 第 5 种格式（ XML 格式）。 for record in NCBIXML.parse(open(blast_fmt5.xml)) 其中 record 有 descriptions ， alignments ， multiple_alignment 列表对象，还有 Blast ， Header ， DatabaseReport 和 Parameters 方法。列表对象可以通过循环获取到，例如： for element in record. descriptions 其中 element 有 title ， score ， bits ， e 和 num_alignments 对象组成。在 record 的 desciptions 对象中，给出了 Subject ID ， bitscore 值， evalue 值等信息 for element in record.alignments 其中 element 有 title ， hit_id ， hit_def ， length 和 hsps 组成。其中 title 与 descriptions 里的 title 相同， hit_id 不是 subject id 而且自编的一个 id ， hit_def 即 subject id 。其中最重要的是 hsps ，它可以再用一个循环获得。 for hsp in element.hsps 按照以下代码将其中 query ， match 和 sbjct 打印出来（一行一个）如下：代码如下：当不清楚如何的对应关系时，可以查看 xml 文件，如下：例如：当不清楚 subject 序列 id 号是什么时，可以 grep blast5.xml 但是很坑的是，很难找到 query id ，因为它并没有在文档中给出，甚至连 help(record) 也看不到，而且用上面 grep blast5.xml 的方式搜索出来的是 query-def ，但是用 query_def 会报错，因为根本就没有这个属性！原来，它藏在 record 中的属性中，通过 record.query 提取出来！还有一个 SearchIO 更好用，先 mark 一下，等整理出来再分享

个人分类: Metagenomics|8491 次阅读|0 个评论

比对算法的原理及代码实现

luria 2018-5-4 15:28

这篇博文以简化的 Needleman-Wunsch 比对算法为例详解比对算法的原理及代码实现。 Needleman-Wunsch 算法是最著名的全局比对算法，在此基础上形成的 Smith-Waterman 算法是最著名的局部比对算法，虽然两者都非常巧妙，但基本原理和代码相差不大，这里仅讲解 Needleman-Wunsch 算法。 1. Needleman-Wunsch 算法的原理 1970 年 Saul B. Needleman and Christian D. Wunsch 首次将动态规化的思路应用到生物信息学领域，形成了大名鼎鼎的 Needleman-Wunsch 算法，该算法在当前生物信息学领域得到广泛应用，是全局比对算法中最重要的算法。闲言少述，直接进入正题。以下两条序列进行全局比对为例， Needleman-Wunsch 算法的具体步骤如下： sequence1 GCATGCU sequence2 GATTACA 1.1 初始化矩阵首先建立一个空的矩阵，矩阵上的行名为 sequence1 的碱基，矩阵的列名为 sequence2 的碱基。因为需要初始值，所有数据区第一行和第一列依次为 -1, -2, -3, -4... 这组递减数列，相连两项之间的差值为 gap 罚分。这里为了方便起见，采用最一般的罚分，即 match 得 1 分， mismatch 和 gap 罚 1 分（即得 -1 分，以下叙述均用得分表示，若为罚分则得分为负）。图 1. 初始空矩阵注： match=1, mismatch=-1, gap=-1 1.2 三个方向移动到当前位点时的综合得分依次从左上往右下计算出每个位点的得分，计算时先算出从左，从上及从左上角移动到当前位点时的得分，这个得分值为：不同方向移动综合得分 = 移动前位点的得分 + 移动过程的得分移动前位点的得分为移动前位点方框中的值，移动过程的得分按 1.1 中的得分约定计算如下： Ø 从上往下和从左往右移动时都会引入 gap ，前者是在横向这条序列上引入 gap ，后者是在纵向这条序列上引入 gap ，因此都会得 -1 分； Ø 从左上往右下方向移动时，如果当前位点横向和纵向对应碱基一致，表明为 match ，得 1 分；如果当前位点横向和纵向对应碱基不一致，表明为 mismatch ，得 -1 分。具体示意图如下：图 2. 三个方向移动时综合得分值得一提的是， Smith-Waterman 算法仅在此基础上加入一个 0 值，让上述三个方向上的值与 0 ，共四个值比较大小。而且在最开始初始化矩阵时将初始行初始列的值都设为 0 。这样整个矩阵中的值没有负值。因此可以从任何位置开始，后面回溯时从矩阵中最大的值开始回溯，这样就可以达到局部比对的效果，真的是太精妙了！ 1.3 当前位点得分从三个方向（从上到下，从左到右，从左上到右下）移动到当前位点的综合得分的最大值，即为当前位点得分。那么由上图 2 中可得三个方向移动到当前位点时的最大得分为 max(1, -2, -2) = 1 即当前位点得分为 1 （图中表格第三行第三列值为 1 ）按照以上原则，将矩阵上每个位点都计算出来，填满整个表格。强列建议大家手动算一次，实际计算会让思路更加清晰，这对后面写代码实现非常有帮助！我手动计算结果如下，与 wiki 百科上的一致。图 3. 整个矩阵的结果图 1.4 回溯获取最佳比对结果沿右下角向左上角回溯，每个位点依然有三个位置，左上，左边和上边，如果最大值出现在上面，则横向这条序列引入一个 gap (-) ，纵向这条序列取该处碱基；如果最大值出现在左边，则纵向这条序列引入一个 gap (-) ，横向这条序列取该处碱基 ; 如果最大值出现在左上角，则不引入 gap ，纵向和横向均取该处碱基。这样获取到两段序列，再反转过来（因为序列是从后往前回溯的）即为最终结果。图 4. 回溯找最佳路径 2. 用 Python 实现全局比对方便起见，这里仅用了原生python实现算法，具体代码如下，有兴趣的朋友也可以使用cython或python数据分析包，或者其它语言实现，并欢迎贴到讨论区，谢谢。 --------------------- 可下载代码源文件 global_alignment.py --------------------- #!/usr/bin/env python import sys __author__ = 'luria@sohu.com' __date__ = '2018.05.04' __version__ = 'v1.0' def main(self, subject, query): match, mismatch, gap = 1, -1, -1 # if you wanna to use other score matrix, # you could do code reactoring as a practice pos_dict = {(i, j): 0 for i in xrange(len(subject)+1) for j in xrange(len(query)+1)} for k in pos_dict: if not k and not k : pos_dict = 0 elif not k and k : pos_dict = k * gap elif not k and k : pos_dict = k * gap # print pos_dict # this step must be follow first loop for i in xrange(1, len(subject)+1): for j in xrange(1, len(query)+1): up2down = pos_dict + gap left2right = pos_dict + gap if subject == query : topleft2bottomright = pos_dict + match else: topleft2bottomright = pos_dict + mismatch pos_dict = max(up2down, left2right, topleft2bottomright) # print matrix ''' for i in xrange(len(subject)+1): temp = )) print \\t.join(temp) ''' out_subject, out_query = '', x, y = len(subject), len(query) while 1: if not x and not y: break direct_dict = { up : pos_dict , left : pos_dict , top_left : pos_dict } #print direct_dict order = sorted(direct_dict.iteritems(), key=lambda o:o , reverse=True) # only get one best path at this program, # you can get all best path if you like if order == up: out_subject += - out_query += query x -= 1 elif order == 'left': out_query += - out_subject += subject y -= 1 else: out_subject += subject out_query += query x -= 1 y -= 1 print out_subject print .join( == out_query else for i in xrange(len(out_subject))] ) print out_query print if __name__ == '__main__': if len(sys.argv) == 1: sys.exit( global_align.py subject query) main(*sys.argv) 参考材料： https://en.wikipedia.org/wiki/Smith-Waterman_algorithm https://en.wikipedia.org/wiki/Needleman-Wunsch_algorithm

个人分类: Algorithm|11521 次阅读|0 个评论

如何搭建一个网页版的BLAST服务器

mashengwei 2017-12-20 16:57

如何搭建一个网页版的BLAST服务器胖丫今天跟我说：“师兄，再来给我调调网络呗？公共BLAST服务器太慢了，半天刷新不出来！”我说：“我们这是百兆宽带到桌面，刷新慢不是网络的问题，是你离人家的服务器太远了！L”胖丫一脸委屈的说：“要不我去人家有服务器的实验室申请个博士读读？”“……” 不知道大家平时用公共BLAST服务器时有没有遇到刷新慢的问题？或者想比对一些公共数据库中没有的个性化数据？今天，我们这里写一个简单教程，来教大家搭建一个网页版（图形界面）BLAST服务器，用来解决上述问题（当然，也可以解决胖丫读博士的问题）。在搭建BLAST服务器之前，你应该先准备一个Ubuntu（Linux）系统。至于Ubuntu系统的安装，网上有很多教程，大家可以自行搜索，比如https://jingyan.baidu.com/article/3c48dd348bc005e10be358eb.html。当然，你也可以将Ubuntu系统安装到自己电脑的虚拟机里。如果只是用来做BLAST服务器的话，对电脑硬件的要求着实不高，平时实验室用的台式机就好。系统安装好之后，我们就可以开始安装BLAST服务器了，这类软件有wwwblast、viroBLAST和Sequenceserver（http://www.sequenceserver.com）。前面我们我们已经介绍过viroBLAST的安装及使用，今天介绍Sequenceserver。Sequenceserver相当于NCBI-BLAST（ncbi-blast+）的前端图形交互界面，是用Ruby语言写的，因此在安装之前应该先安装Ruby、Ruby编译环境（ruby-dev）以及Rbuy的软件包管理系统（rubygems-integration）。大家可以在bash里面输入下面的命令（命令输入完毕后要按回车执行 #开头的行是命令说明）： #安装依赖软件包 sudo apt install ncbi - blast + ruby ruby - dev rubygems - integration #安装sequenceserver软件 sudo gem install sequenceserver 这样软件就安装好了！接下来我们需要准备序列文件，也就是你要检索的数据库。一般来说，我们可以从公共的数据库比如EnsemblPlants（http://plants.ensembl.org/index.html）、NCBI、EBI等，下载fasta格式（压缩后为fa.gz格式）的文件，这里我们以水稻的第10号染色体为例，简单演示一下数据库的准备： #利用wget命令从EnsemblPlants网站下载水稻10号染色体序列 wget - c ftp : //ftp.ensemblgenomes.org/pub/plants/release-32/fasta/oryza_sativa/dna/Oryza_sativa.IRGSP-1.0.dna.chromosome.10.fa.gz #解压缩，就是将fa.gz文件加压为fa文件 gunzip Oryza_sativa . IRGSP - 1.0 . dna . chromosome . 10.fa . gz #利用sequenceserver格式化数据库, “./”代表序列文件存储在当前目录，要注意命令中的空格 sequenceserver - d ./ - m 输入 sequenceserver - d ./ - m 命令后，屏幕会出现类似下面的信息（汉字是操作说明）数据库准备完毕之后就可以运行Sequenceserver了，命令也非常简单： sequenceserver - d ./ #运行sequenceserver，比格式化数据库少了一个 –m 参数最后一步就是用网页浏览器，比如chrome、firefox等打开网页版服务器了：在浏览器地址栏里输入 127.0 . 0.1 : 4567 #本机访问本机可以用这个地址，如果局域网内的其它机器访问的话需要先查出服务器的IP地址，命令为 ifconfig ，然后将127.0.0.1替换为相应的IP地址。下图中eth0的IP地址为 192.168 . 0.104 ，在浏览器中输入 192.168 . 0.104 : 4567 即可（lo为回环网卡，请忽略：））。接下来就和普通的NCBI-blast类似了。有关blast话题的我们说过不少，还请参见以前的一些推送。有问题可以留言和进群讨论。 SRA数据的下载以及在线blast--或许与你了解的不一样在NCBI上blast野生二粒小麦基因组序列 get blast新技能加速蛋白比对节节麦基因组数据使用和下载欢迎关注“ 小麦研究联盟 ” ，了解小麦新进展

6363 次阅读|0 个评论

全球最高引100篇文章系统分析(1亿篇文章筛选出来，总共分7档）

热度 5 sibscas 2017-11-26 13:31

iNature ：对于全球最高引的前100篇文章，篇均引用量是 34834.92 次；这100篇文章主要聚集在生物化学及分子生物学领域；这100篇文章中，发表在PHYSICAL REVIEW B杂志及JBC杂志都是发表了7篇文章；对于这100篇文章，产出率最高的机构是加州大学；总的来说，这100篇文章主要是聚集在基础研究，如蛋白质的定量，蛋白质的分析，实时定量PCR技术，BLAST的诞生，DNA测序，同源序列比对等方面。 iNature编辑组的统计时间是2017年11月26日。 1 引用量最高的10000篇文章分析我们以Web of Science为基础，通过相关的检索，从1874-2018年，总共检索到 120611782条记录（图.1 ）。图.1 总文章数我们对于所有的文章进行了分类归档，发现引用次数大于10万次，为第一档，有3篇文章；第二档的引用量是5-10万次，有9篇文章；第三档的引用量是1-5万次，有238篇文章；第四档的引用量是5000-1万次，有748篇文章；第五档的引用量是1000-5000次，有22994篇文章；第六档的引用量是500-1000次，有68509篇文章；第七档的引用量是小于500次，有120519371篇文章（图.2 ）。文章分档引用次数文章数累加文章数 I 10万 3 II 5-10万 9 12 III 1-5万 238 250 IV 5000-1万 748 998 V 1000-5000 22994 23902 VI 500-1000 68509 92411 VII 500 120519371 120611782 图.2 所有文章的归档分类之后我们根据引用量从高到底，进行排序，我们筛选了10000条记录（因为Web of Science最多只能一次分析10000条记录），进行相应的统计分析。我们发现每篇文章的平均引用次数是3173.14次，总引用次数是31731393次，施引文献是14692585 （图.3 ）。另外，我们发现，最高引用文章大部分都聚集在1990-2010年之间，达到了40%以上。图.3 10000篇文章引用分析之后，我们看了一下不同时间段，对于这些文章的引用次数分析，发现绝大部分引用都是聚集在1990-2016年之间（图.4 ）。图.4 10000篇文章不同时间段引用分析由于分析10000篇文章，工作量太大，我们就直接分析前100篇文章，发现前100篇文章的平均引用量是34834.92次，总引用次数是3483492次，施引文献达到2627346篇。这100篇文章，占前10000篇的总引用的10.98%，但是总文章数是1.00%，故我们主要分析这100篇文章（图.5 ）。图.5 100篇文章引用分析 2 引用量最高的100篇文章分析对于这100文章发表的时间进行分析，我们发现在1950年以前只有4篇，1950-1960年之间，有10篇；1961-1970年，有9篇；1971-2010年，总共有74篇，占了绝大部分；2010年以后，只有3篇文章（图.6 ），这三篇文章分别是遗传进化（ MEGA5: Molecular Evolutionary Genetics Analysis Using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods，2011年），癌症综述（ Hallmarks of Cancer: The Next Generation，2011年），全球癌症统计（ Global Cancer Statistics，2011年）。图.6 100篇文章发表时间分析其次我们对这100篇文章的种类进行了基本分析，发现生物化学及分子生物学方面有35篇，物理学有15篇，化学有14篇，数学11篇（图.7 ）。图.7 100篇文章方向分析我们再次对这100篇文章发表的杂志进行分析（3篇），发表在PHYSICAL REVIEW B杂志及JBC杂志都是7篇文章；ANALYTICAL BIOCHEMISTRY，JOURNAL OF CHEMICAL PHYSICS，NATURE，NUCLEIC ACIDS RESEARCH都是发表了4篇文章，总的来说，这高引用的100篇文章，大部分都是生物，物理，生物化学及化学方面的文章。另外这9个杂志占了39篇文章（图.8 ）。图.8 100篇文章杂志分析我们再次统计了国家，发现美国有44篇，占了绝大部分，其次是英国，达到9篇；德国有6篇，很遗憾，没有发现有中国参与的文章（图.9 ）。图.9 100篇文章国家分布我们对研究机构统计了一下，发现加州大学系统占的比例最大，达到了7篇，其次是宾夕法尼亚州立大学，达到了4篇（图.10 ）。图.10 100篇文章的大学或研究所分析 3 引用量最高的100篇文章列表对于这100篇文章，主要是技术的变革及基础研究，如蛋白质的定量，蛋白质的分析，实时定量PCR技术，BLAST的诞生，DNA测序，同源序列比对等，这些东西都是非常的基础，故这也注定了它们的高引用量（图.11 ）。标题总引用次数年均引用 1 PROTEIN MEASUREMENT WITH THE FOLIN PHENOL REAGENT 335844 5012.6 2 CLEAVAGE OF STRUCTURAL PROTEINS DURING ASSEMBLY OF HEAD OF BACTERIOPHAGE-T4 244785 5099.69 3 RAPID AND SENSITIVE METHOD FOR QUANTITATION OF MICROGRAM QUANTITIES OF PROTEIN UTILIZING PRINCIPLE OF PROTEIN-DYE BINDING 201313 4793.17 4 DNA SEQUENCING WITH CHAIN-TERMINATING INHIBITORS 66790 1629.02 5 DENSITY-FUNCTIONAL THERMOCHEMISTRY .3. THE ROLE OF EXACT EXCHANGE 65244 2609.76 6 Generalized gradient approximation made simple 63484 2885.64 7 SINGLE-STEP METHOD OF RNA ISOLATION BY ACID GUANIDINIUM THIOCYANATE PHENOL CHLOROFORM EXTRACTION 63161 2037.45 8 DEVELOPMENT OF THE COLLE-SALVETTI CORRELATION-ENERGY FORMULA INTO A FUNCTIONAL OF THE ELECTRON-DENSITY 61406 2046.87 9 A short history of SHELX 58640 5864 10 Analysis of relative gene expression data using real-time quantitative PCR and the 2(T)(-Delta Delta C) method 58159 3421.12 11 ELECTROPHORETIC TRANSFER OF PROTEINS FROM POLYACRYLAMIDE GELS TO NITROCELLULOSE SHEETS - PROCEDURE AND SOME APPLICATIONS 55121 1413.36 12 A SIMPLE METHOD FOR THE ISOLATION AND PURIFICATION OF TOTAL LIPIDES FROM ANIMAL TISSUES 51444 843.34 13 BASIC LOCAL ALIGNMENT SEARCH TOOL 49116 1754.14 14 CLUSTAL-W - IMPROVING THE SENSITIVITY OF PROGRESSIVE MULTIPLE SEQUENCE ALIGNMENT THROUGH SEQUENCE WEIGHTING, POSITION-SPECIFIC GAP PENALTIES AND WEIGHT MATRIX CHOICE 47444 1976.83 15 Gapped BLAST and PSI-BLAST: a new generation of protein database search programs 45557 2169.38 16 NONPARAMETRIC-ESTIMATION FROM INCOMPLETE OBSERVATIONS 44604 743.4 17 MINI-MENTAL STATE - PRACTICAL METHOD FOR GRADING COGNITIVE STATE OF PATIENTS FOR CLINICIAN 43637 1014.81 18 A REVISED MEDIUM FOR RAPID GROWTH AND BIO ASSAYS WITH TOBACCO TISSUE CULTURES 41340 738.21 19 THE NEIGHBOR-JOINING METHOD - A NEW METHOD FOR RECONSTRUCTING PHYLOGENETIC TREES 38735 1249.52 20 A RAPID METHOD OF TOTAL LIPID EXTRACTION AND PURIFICATION 37927 642.83 21 REVISED EFFECTIVE IONIC-RADII AND SYSTEMATIC STUDIES OF INTERATOMIC DISTANCES IN HALIDES AND CHALCOGENIDES 37143 884.36 22 DENSITY-FUNCTIONAL EXCHANGE-ENERGY APPROXIMATION WITH CORRECT ASYMPTOTIC-BEHAVIOR 34065 1135.5 23 SELF-CONSISTENT EQUATIONS INCLUDING EXCHANGE AND CORRELATION EFFECTS 33872 639.09 24 Efficient iterative schemes for ab initio total-energy calculations using a plane-wave basis set 33658 1529.91 25 The moderator-mediator variable distinction in social psychological research: conceptual, strategic, and statistical considerations. 33191 1037.22 26 Processing of X-ray diffraction data collected in oscillation mode 32667 1555.57 27 The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC) 32391 2313.64 28 DETECTION OF SPECIFIC SEQUENCES AMONG DNA FRAGMENTS SEPARATED BY GEL-ELECTROPHORESIS 32239 749.74 29 REGRESSION MODELS AND LIFE-TABLES 32022 696.13 30 COLORIMETRIC METHOD FOR DETERMINATION OF SUGARS AND RELATED SUBSTANCES 31882 514.23 31 RAPID COLORIMETRIC ASSAY FOR CELLULAR GROWTH AND SURVIVAL - APPLICATION TO PROLIFERATION AND CYTO-TOXICITY ASSAYS 31292 894.06 32 The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools 30770 1465.24 33 HELICAL MICROTUBULES OF GRAPHITIC CARBON 30386 1125.41 34 STATISTICAL METHODS FOR ASSESSING AGREEMENT BETWEEN TWO METHODS OF CLINICAL MEASUREMENT 29847 932.72 35 FUZZY SETS 29740 561.13 36 CONTROLLING THE FALSE DISCOVERY RATE - A PRACTICAL AND POWERFUL APPROACH TO MULTIPLE TESTING 29691 1290.91 37 Electric field effect in atomically thin carbon films 28520 2037.14 38 INHOMOGENEOUS ELECTRON GAS 27972 518 39 CONFIDENCE-LIMITS ON PHYLOGENIES - AN APPROACH USING THE BOOTSTRAP 27721 840.03 40 SPECIAL POINTS FOR BRILLOUIN-ZONE INTEGRATIONS 27045 643.93 41 MEGA5: Molecular Evolutionary Genetics Analysis Using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods 26581 3797.29 42 USE OF LEAD CITRATE AT HIGH PH AS AN ELECTRON-OPAQUE STAIN IN ELECTRON MICROSCOPY 25405 461.91 43 From ultrasoft pseudopotentials to the projector augmented-wave method 25057 1318.79 44 MEASUREMENT OF OBSERVER AGREEMENT FOR CATEGORICAL DATA 25005 609.88 45 PROJECTOR AUGMENTED-WAVE METHOD 24314 1013.08 46 MEGA4: Molecular evolutionary genetics analysis (MEGA) software version 4.0 24066 2187.82 47 RELIABILITY OF MOLECULAR WEIGHT DETERMINATIONS BY DODECYL SULFATE-POLYACRYLAMIDE GEL ELECTROPHORESIS 23835 486.43 48 THE ATTRACTIONS OF PROTEINS FOR SMALL MOLECULES AND IONS 23763 344.39 49 ISOLATION OF BIOLOGICALLY-ACTIVE RIBONUCLEIC-ACID FROM SOURCES ENRICHED IN RIBONUCLEASE 23574 604.46 50 The colorimetric determination of phosphorus 23420 251.83 51 Cutoff Criteria for Fit Indexes in Covariance Structure Analysis: Conventional Criteria Versus New Alternatives 22755 1197.63 52 Particle swarm optimization 22586 982 53 DISC ELECTROPHORESIS .2. METHOD AND APPLICATION TO HUMAN SERUM PROTEINS 22463 415.98 54 MAXIMUM LIKELIHOOD FROM INCOMPLETE DATA VIA EM ALGORITHM 22259 542.9 55 A TECHNIQUE FOR RADIOLABELING DNA RESTRICTION ENDONUCLEASE FRAGMENTS TO HIGH SPECIFIC ACTIVITY 21557 615.91 56 Efficiency of ab-initio total energy calculations for metals and semiconductors using a plane-wave basis set 21539 979.05 57 NEW LOOK AT STATISTICAL-MODEL IDENTIFICATION 21172 481.18 58 Global Cancer Statistics 20983 2997.57 59 A NEW GENERATION OF CA-2+ INDICATORS WITH GREATLY IMPROVED FLUORESCENCE PROPERTIES 20677 626.58 60 CLINICAL-DIAGNOSIS OF ALZHEIMERS-DISEASE - REPORT OF THE NINCDS-ADRDA WORK GROUP UNDER THE AUSPICES OF DEPARTMENT-OF-HEALTH-AND-HUMAN-SERVICES TASK-FORCE ON ALZHEIMERS-DISEASE 20596 605.76 61 THE ASSESSMENT AND ANALYSIS OF HANDEDNESS: THE EDINBURGH INVENTORY 20514 436.47 62 The rise of graphene 20505 1864.09 63 Distinctive image features from scale-invariant keypoints 20258 1447 64 A RATING SCALE FOR DEPRESSION 20238 348.93 65 AN INVENTORY FOR MEASURING DEPRESSION 20104 352.7 66 EQUATION OF STATE CALCULATIONS BY FAST COMPUTING MACHINES 19396 298.4 67 ESTIMATION OF CONCENTRATION OF LOW-DENSITY LIPOPROTEIN CHOLESTEROL IN PLASMA, WITHOUT USE OF PREPARATIVE ULTRACENTRIFUGE 19380 421.3 68 HIGH-RESOLUTION 2-DIMENSIONAL ELECTROPHORESIS OF PROTEINS 19179 446.02 69 COMPARISON OF SIMPLE POTENTIAL FUNCTIONS FOR SIMULATING LIQUID WATER 19023 543.51 70 THE MOS 36-ITEM SHORT-FORM HEALTH SURVEY (SF-36) .1. CONCEPTUAL-FRAMEWORK AND ITEM SELECTION 18987 730.27 71 MicroRNAs: Genomics, biogenesis, mechanism, and function 18845 1346.07 72 PHASE ANNEALING IN SHELX-90 - DIRECT METHODS FOR LARGER STRUCTURES 18787 670.96 73 A LOW-COST, HIGH-EFFICIENCY SOLAR-CELL BASED ON DYE-SENSITIZED COLLOIDAL TIO2 FILMS 18733 693.81 74 GAUSSIAN-BASIS SETS FOR USE IN CORRELATED MOLECULAR CALCULATIONS .1. THE ATOMS BORON THROUGH NEON AND HYDROGEN 18531 639 75 OPTIMIZATION BY SIMULATED ANNEALING 18374 524.97 76 A NEW METHOD OF CLASSIFYING PROGNOSTIC CO-MORBIDITY IN LONGITUDINAL-STUDIES - DEVELOPMENT AND VALIDATION 18044 582.06 77 MrBayes 3: Bayesian phylogenetic inference under mixed models 17994 1199.6 78 TISSUE SULFHYDRYL GROUPS 17989 304.9 79 VMD: Visual molecular dynamics 17956 816.18 80 METAANALYSIS IN CLINICAL-TRIALS 17945 560.78 81 IMPROVED PATCH-CLAMP TECHNIQUES FOR HIGH-RESOLUTION CURRENT RECORDING FROM CELLS AND CELL-FREE MEMBRANE PATCHES 17744 479.57 82 HOMEOSTASIS MODEL ASSESSMENT - INSULIN RESISTANCE AND BETA-CELL FUNCTION FROM FASTING PLASMA-GLUCOSE AND INSULIN CONCENTRATIONS IN MAN 17634 534.36 83 A SIMPLE METHOD FOR DISPLAYING THE HYDROPATHIC CHARACTER OF A PROTEIN 17621 489.47 84 Measuring inconsistency in meta-analyses 17584 1172.27 85 MEASUREMENT OF PROTEIN USING BICINCHONINIC ACID 17573 532.52 86 THE HOSPITAL ANXIETY AND DEPRESSION SCALE 17458 498.8 87 STUDY OF THE CONDITIONS AND MECHANISM OF THE DIPHENYLAMINE REACTION FOR THE COLORIMETRIC ESTIMATION OF DEOXYRIBONUCLEIC ACID 17232 277.94 88 The Protein Data Bank 17152 952.89 89 The NCEP/NCAR 40-year reanalysis project 17118 778.09 90 Collective dynamics of 'small-world' networks 17044 852.2 91 Hallmarks of Cancer: The Next Generation 16913 2416.14 92 ABINITIO MOLECULAR-DYNAMICS FOR LIQUID-METALS 16788 671.52 93 Bias in meta-analysis detected by a simple, graphical test 16785 799.29 94 DETERMINATION OF SERUM PROTEINS BY MEANS OF THE BIURET REACTION 16754 242.81 95 A MATHEMATICAL THEORY OF COMMUNICATION 16715 238.79 96 PROCHECK - A PROGRAM TO CHECK THE STEREOCHEMICAL QUALITY OF PROTEIN STRUCTURES 16710 668.4 97 MODELTEST: testing the model of DNA substitution 16619 830.95 98 MULTIPLE RANGE AND MULTIPLE F TESTS 16580 263.17 99 ESTIMATING DIMENSION OF A MODEL 16551 413.78 100 A SIMPLE METHOD FOR ESTIMATING EVOLUTIONARY RATES OF BASE SUBSTITUTIONS THROUGH COMPARATIVE STUDIES OF NUCLEOTIDE-SEQUENCES 16492 434 图.11 前100篇文章列表注：所有的数据来源为Web of science。温馨提示： iNature微信公众号是介绍一流的，最前沿的科研成果，提供专业的完整的同行解析；另外也会介绍全世界知名的实验室及业界大师；同时为公众提供一个了解生命科学及科研过程的平台。

个人分类: 领域分析|10733 次阅读|37 个评论

你所在的领域里，有哪些堪称开山之作的论文？

Hadron74 2017-6-13 12:36

我在@知乎回答了问题： “你所在的领域里，有哪些堪称开山之作的论文？” ，分享在这里：作为生物信息的码农，生物信息领域的开山之作，个人觉得这篇BLAST(局域联配搜索基础工具)的论文是当之无愧的： Basic local alignment search tool SF Altschul , W Gish, W Miller , EW Myers … - Journal of molecular …, 1990 - Elsevier 生物信息是用计算机科学的方法研究生物学的领域。而生物学中信息的最主要载体DNA和蛋白质都是序列化的，生物的进化使得序列间存在大量的相似性，称为同源性。所以序列比对对于基因组研究至关重要。在BLAST之前，计算机科学家已经有了一系列基于动态规划的算法进行序列比对，但单纯的动态规划算法所需的时间是与序列长度的平方成正比，虽然对计算机科学这已经很不错了，可对于成亿长度规模的基因组，上万条的序列同时进行分析，这个速度还是不能忍受的。 BLAST的出现改变这种情况，它采用了启发式的算法，基于文章通讯作者在1985年发明的FASTA算法。这个算法虽然不是严格的找最优解，但由于该方法抓住的生物序列的主要特征，在绝大多数情况下都能得到最优解。而在速度上，比前人的算法提高了50倍，别小看了这50倍，这使得序列对数据库的比对成为可能（BLAST一般的分析几分钟就能完成一条序列对大数据库的比对，想想这在以前的方法要几小时呀）。在此基础上，BLAST又革命性的引入了对数据库比对结果打分排序的统计方法，使结果分析更加清晰可靠。从此BLAST开启了序列比对应用的时代，也开启了生物信息学的时代。 BLAST由于其算法和软件的实用性，且得到了NCBI的大力推广，其文章得到了大量的引用。到2017年，Google Scholar上引用该文66,000多次，加上同一作者在1997年的加强版gapped-BLAST(62,000次引用），BLAST稳居生物信息领域第一牛文，也是人类历史上引用率最高的论文之一。参考： 1， http:// abc.cbi.pku.edu.cn/semi nar/caas13s2-02.pdf 2， What Are The Most Cited Research Papers Of All Time?

个人分类: 生物信息|5124 次阅读|0 个评论

二代测序短序列mapping新选择：Magic-BLAST

热度 1 mashengwei 2017-3-3 17:47

Magic-BLAST is a tool for mapping large next-generation RNA or DNA sequencing runs against a whole genome or transcriptome. 前面一段时间看到NCBI上blast出了一个新系列，短序列的mapping。基本与blast使用体验一致。Magic-BLAST 也适用于长片段mapping，比如EST。最好调整默认的参数。科学网博客排版不是很好，详细参见二代测序短序列mapping新选择：Magic-BLAST 1、下载官网下载（ftp://ftp.ncbi.nlm.nih.gov/blast/executables/magicblast/LATEST）我下载的是编译之后的，下载之后将magicblast和makeblastdb拷贝至系统全局变量路径即可。 2、使用对经常使用blast的人来说使用非常简单。甚至不用将reference序列建库，直接使用fasta格式的序列文件即可。比如： magicblast -query SRR1228245_1.fastq.gz -query_mate SRR1228245_2.fastq.gz -infmt fastq -subject ref.fa -outfmt sam -out SRR1228245_blast.sam -num_threads 10 -splice T 其实，如果前面使用过makeblastdb将参考基因组建库，magicblast可以直接使用。比如 magicblast -query SRR1228245_1.fastq.gz -query_mate SRR1228245_2.fastq.gz -infmt fastq -db /data2/Fshare/IWGSC_v1.0_Formatdb/CS_v1.0_full -outfmt sam -out SRR1228245_blast.sam -num_threads 10 -splice T #如果是DNA_seq ,需要将 -splice 设为 F 支持的输入格式 SRA, FASTA, FASTQ, or FASTC 等。在NCBI上下载的SRA序列这次可以直接使用了😝。当然支持压缩格式 .gz。输出格式支持sam, tabular, asn。更多的其他用法这里就不在啰嗦了，请参见下面的README已经help

7016 次阅读|4 个评论

[转载]the relationship between score and e-value when blasting

han663268 2014-12-4 22:16

BLAST是指Basic Local Alignment Search Tool，是生物信息学中的一种序列比对算法，用于寻找蛋白质或核酸的相似序列。下面是一个BLAST结果， Sequences producing significant alignments: Score (S) E gi|83574104|Moth_2374|sporulation – prote… 202 2e-53 gi|83573446|Moth_1696|Sporulation – prote… 112 1e-26 gi|83571874|Moth_0087|sporulation – prote… 95 3e-21 gi|83573435|Moth_1685|Substrate-binding -… 27 1.0 后面有两个值，一个是S值，一个E值。可以发现，结果是依据S值的高低来显示的。 S值表示两序列的同源性，分值越高表明它们之间相似的程度越大。 E值就是S值可靠性的评价。它表明在随机的情况下，其它序列与目标序列相似度要大于S值的可能性。所以它的分值越低越好。 E值的计算： E=K*m*n*(e -lambda*S ) 其中，K和lambda与数据库和算法有关，是个常量；m代表目标序列的长度，n代表数据库的大小，S就是前面提到的S值。通常来讲，我们认为E值小于10 -5 就是比较可性的S值结果。我们可以想象，相同的数据库，E=0.001时如果有1000条都有机会比现在这个S值要高的话，那么把E设置为10 -6 时可能就会只得到一条结果，就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性： 1. 当目标序列过小时，E值会偏大，因为无法得到较高的S值。 2. 当两序列同源性虽然高，但有较大的gap（空隙）时，S值会下降。这个时候gap scores就非常有用。 3. 有些序列的非功能区有较低的随机性时，可能会造成两序列较高的同源性。 E值总结： E值适合于有一定长度，而且复杂度不能太低的序列。当E值小于10 -5 时，表明两序列有较高的同源性，而不是因为计算错误。当E值小于10 -6 时，表时两序列的同源性非常高，几乎没有必要再做确认

个人分类: 拾人牙慧|1082 次阅读|0 个评论

Mothur软件的classify.seqs命令比blast快的分类手段

zczhou 2014-4-2 17:29

The classify.seqs command allows the user to use several different methods to assign their sequences tothe taxonomy outline of their choice. Current methods include using a k-nearestneighbor consensus and Wang approach. Classify 用两种方法来计算分类： knn 和 wang. 两者的区别是： knn 快，不计算 supportivevalue. Wang method 计算。这里需要对比的序列和分类的文件： http://www.mothur.org/wiki/Silva_reference_files 这个是常用的 silva ，还有 greengene mothur classify.seqs(fasta=abrecovery.fasta, template=nogap.bacteria.fasta,taxonomy=silva.bacteria.silva.tax) wang method 的 defaultmethod, ，根据 query sequences 里面 kmer 比对 taxonomy ， default ksize 是 8 ，兼顾快速和准确度。同时迭代次数也可以设定， default 为 100 ， cutoff 参数去除 supportive value 小于设定的序列。 Knn method 是基于 dist 信息的，所以会产生一个 dist 文件，如果你想更快， numwanted 可以从 default 的 10 该到 1, 当然改到 1 的时候就是大致的看看了。同时 knn method 也像 align.seqs 一样，提供三种搜索序列的方式 kmer,blast,suffix 还有一个 distance. 用 blast 的时候需要有 blast 的程序，且让 mothur 找到路径。不过一般的，我们都用 default 的 kemr 方法，所以可以不理会。参考： http://www.mothur.org/wiki/Classify.seqs

6348 次阅读|0 个评论

orthoMcl本地化中的ALL-versus-all blast

liujd 2013-10-12 19:16

个人分类: 生物信息|0 个评论

美国政府，你不能关门啊！！！

热度 3 pkucarer4300 2013-10-2 09:33

早上起床想比对个序列，进了BLAST网站，我和我的小伙伴们都惊呆了：（看不清字的小伙伴们，我给大致翻译一下：政府不给钱，我们只好闲。政府不管饭，我们关网站。政府不给力，你别不愿意。冤有头，债有主，上这个网站找政府：http://www.usa.gov) 美国政府，你不能关门啊！！！俺们发展中国家做科研可得全靠你们啊！！！你们要做负责任的大国啊！！！返回博客首页

个人分类: 生活点滴|3483 次阅读|6 个评论

[转载]Using BLASTClust to Make Non-redundant Sequence Sets

tanshenglong 2013-8-15 15:53

Using BLASTClust to Make Non-redundant Sequence Sets BLASTClust is a program within the standalone BLAST package used to cluster either protein or nucleotide sequences. The program begins with pairwise matches and places a sequence in a cluster if the sequence matches at least one sequence already in the cluster. In the case of proteins, the blastp algorithm is used to compute the pairwise matches; in the case of nucleotide sequences, the Megablast algorithm is used. In the simplest case, BLASTClust takes as input a file containing catenated FASTA-format sequences, each with a unique identifier at the start of the definition line. BLASTClust formats the input sequence to produce a temporary BLAST database, performs the clustering, and removes the database at completion. Hence, there is no need to run formatdb in advance to use BLASTClust. The output of BLASTClust consists of a file, one cluster to a line, of sequence identifiers separated by spaces. The clusters are sorted from the largest cluster to the smallest. BLASTClust accepts a number of parameters that can be used to control the stringency of clustering including thresholds for score density, percent identity, and alignment length. The BLASTClust program has a number of applications, the simplest of which is to create a non-redundant set of sequences from a source database. As an example, one might have a library of a few thousand short nucleotide sequence reads and wish to replace these with a non-redundant set. To produce the non-redundant set, one might use: blastclust -i infile -o outfile -p F -L .9 -b T -S 95 The sequences in infile will be clustered and the results will be written to outfile. The input sequences are identified as nucleotide (-p F); -p T, or protein, is the default. To register a pairwise match two sequences will need to be 95% identical (-S 95) over an area covering 90% of the length (-L .9) of each sequence (-b T) . Using -b F instead of -b T would enforce the alignment length threshold on only one member of a sequence pair. The parameter S, used here to specify the percent identity, can also be used to specify, instead, a score density. The latter is equivalent to the BLAST score divided by the alignment length. If S is given as a number between 0 and 3, it is interpreted as a score density threshold; otherwise it is interpreted as a percent identity threshold. To create a stringent non-redundant protein sequence set, use the following command line: blastclust -i infile -o outfile -p T -L 1 -b T -S 100 In this case, only sequences which are identical will be clustered together. The “blastclust.txt” file in the standalone BLAST package details the full range of BLASTClust parameters.

个人分类: 工具使用|0 个评论

最新版BLAST+的本地化（BLAST2.2.29+单机运行）

热度 1 bigdataage 2012-12-8 18:57

Linux下BLAST+的本地化（ NCBI-BLAST 2.2.29+ 单机运行的方法）（第7次修改 , Final Version）本人在以下环境亲测有效：CentOS Linux 64 Bit. 下面涉及到的路径需要根据自己的电脑来修改。 Linux下BLAST+的本地化(NCBI-BLAST 2.2.29+): 1. 下载软件 BLAST : 在以下网址 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ 下载: ncbi-blast-2.2.29+-x64-linux.tar.gz （根据自己的操作系统选择）。 2. 解压: 解压后放在任意目录下都可以，把相应路径加入PATH变量就是。比如解压到用户的主目录(/home/yonpen)下，把解压后的文件夹重新命名为blast，则BLAST+的所有程序在目录/home/yonpen/blast/bin下。 3. 添加环境变量: 打开终端（Terminal），切换为root用户，执行vim /etc/profile （需要了解Vim编辑器的基本命令）。在最末尾添加： export PATH=/home/yonpen/blast/bin:$PATH 保存退出。（环境变量的值由Blast所在路径决定。）此处若成功，注销以后执行blastn -version会出现版本信息（一定要先注销或重启电脑）。 4. 新建: 在目录/home/yonpen/blast下新建一个文件夹，命名为db 。在/home/yonpen下新建一个文件，命名为.ncbirc 。（文件名是以点号开头的）在文件中添加内容： BLASTDB=/home/yonpen/blast/db 5. 下载FASTA格式的数据库: ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ 如下载nr.gz。 6. 建立BLAST+可用的数据库: 打开终端（Terminal），切换到/home/yonpen/blast/db目录下，执行（以蛋白质库nr为例）： makeblastdb –in nr -parse_seqids -hash_index -dbtype prot (需要自己输入，复制这行命令可能不行，不知道为什么) 7. 使用程序: 如使用psiblast 在目录/home/yonpen/blast下新建3个文件夹，分别命名为pssm,input,output 设待查询序列所在文件的名字为a.fasta（一个文件放一条序列，且必须为fasta格式）执行命令： psiblast -comp_based_stats 1 -evalue 0.001 -num_iterations 3 -db nr -query input/a.fasta -out output/a.txt -out_ascii_pssm pssm/a.pssm

15613 次阅读|1 个评论

Genbank中更精确的Blast——亚树序列提取

热度 1 Bearjazz 2012-10-12 14:14

Genbank 中更精确的 Blast ——亚树序列提取熊荣川 xiong rongchuan 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 学生物的人大概都会在 genbank 中使用 blast 搜索同源序列，但是往往出来的序列数量总是超过我们的需求。其实我们需要的只是在系统发育关系树更近的序列，例如同属，同科或是聚在一个支系上。当然你可以下载所以 blast 结果序列，使用建树软件构件系统发育树找到这些序列之后在来一条条的下载。但是可想而知工作量之巨大。下面将简单介绍使用 genbank 的“ Distance tree of results ”来实现以上功能，具体操作如下为了图文并茂，请下载pdf文件观看 Genbank中更精确的Blast-科学网-bearjazz.pdf 首先当然是常规的 blast ，结果如下在这些彩色的对比结果上方有个选项就是 , 点击选择后出现一个距离树找到你的目标序列支系之后，在相应的节点上悬停鼠标，弹出一个选项菜单，选择“ show Alignment ”就有序列信息了。就这么简单，祝您科研愉快。 PS ：不知道本地 blast 有没有这样的功能？

个人分类: 我的研究|5568 次阅读|1 个评论

[转载]NCBI在线Blast的图文说明

skinchina 2011-9-22 10:27

NCBI在线Blast的图文说明 Blast （Basic Local Alignment Search Tool）是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍： 1、 BLASTP 是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。 3、 BLASTN 是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。 NCBI 的在线 blast ： http://blast.ncbi.nlm.nih.gov/Blast.cgi 1，进入在线blast界面，可以选择blast特定的物种（如人，小鼠，水稻等），也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。 2，粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看 NCBI在线blast数据库的简要说明。一般的话参数默认。 3，blast参数的设置。注意显示的最大的结果数跟E值，E值是比较重要的。筛选的标准。最后会说明一下。 4，注意一下你输入的序列长度。注意一下比对的数据库的说明。 5，blast结果的图形显示。没啥好说的。 6，blast结果的描述区域。注意分值与E值。分值越大越靠前了，E值越小也是这样。 7，blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项，E值（Expect)，一致性 (Identities)，缺失或插入（Gaps）。加上长度的话，就有四个标准了。如图中显示，比对到的序列长度为1405，看Identities这一值，才匹配到1344bp,而输入的序列长度也是为1344bp（看上面的图），就说明比对到的序列要长一点。由Qurey（起始1）和Sbjct(起始35)的起始位置可知，5'端是是多了一段的。有时也要注意3'端的。附： E值（Expect)：表示随机匹配的可能性， E值越大，随机匹配的可能性也越大。E值接近零或为零时，具本上就是完全匹配了。一致性(Identities)：或相似性。匹配上的碱基数占总序列长的百分数。缺失或插入（Gaps）：插入或缺失。用"—"来表示。转自：http://liucheng.name/475/

2359 次阅读|0 个评论

[转载]Blast使用

lry198010 2010-7-20 19:12

序列比对软件BLAST已经成为序列比对的代号，且其词性也已经开始变化，诸如BLASTing之类的词在各种文章中已是屡见不鲜，可见其影响之深，使用之广，如同分子生物学领域中的PCR。自从1997年释出现有的BLAST版本后，这十多年来，BLAST经历了多次的修改，功能、性能一版比一版好，相应的其Source code也被修改的凌乱不堪，难于维护，极大的限制了对BLAST进一步的修改、功能提升。再加上NCBI C++ Toolkit项目的开展，促使BLAST的维护者们决定从头开始，重新编写 BLAST代码。 2009年7月，NCBI发布了BLAST升级版——BLAST+，BLAST+使用了BLAST的核心算法，延续了BLAST的优势功能，发展并增强了如BLAST的fastacmd程序，新增了如update_blastdb.pl等程序。下面简单列举此次修改的主要内容：高度模块化是本次修改的主要目标，不仅从理论上，更是从代码上明确模块化了BLAST的三个过程：setup, scanning, trace-back。选择的ISO C99标准，使得源代码可以同时被c以及c++使用，不需要做任何修改。 Database mask：之前的版本需要第三方软件如RepeatMasker来mask数据库，c现在内置了WindowMasker和DUST来进行重复序列过滤。使用Query split, Partial subject sequence retrieval以及Retrieving subject sequences from an arbitrary source等策略来提高长序列（如染色体序列）的比对效率，有效的降低了CPU时间，充分使用了一、二级缓存。全新的命令行参数使用方式，添加了长字符串作为参数的支持，如-out，而不是以前的-o，关于每一个程序其具体的命令行参数，可以通过添加-help参数来查阅。分离blastn, blastp, blastx等作为独立的程序以替代之前的blastall -p blastn模式。 makeblastdb, blastdb_aliastool, blastdbcmd三个程序都和数据库有关，增强了数据库方面的处理。添加 Best-Hit算法，只报告最优的Hit。比较有意思的是，最新的FASTA (version 36) 程序学习BLAST添加了multi-HSP 的功能，而BLAST+却学习FASTA添加了Best-Hit的功能。互相学习，互相提高。其实，在BLAST是学习并消化吸收了一大批文章中的先进成果而发展起来的，例如MPBLAST, BLAST++, miBLAST, BLAT等。添加了保存search strategy的功能，所谓search strategy也就是程序运行时的参数等信息（还包括对数据库的一些定制，详细信息会在后面的文章中介绍）。总之，对于广大用户来说，BLAST+的发布绝对是一个好消息。它是对BLAST的一个全新设计，其在性能（主要对长序列的比对）以及易用性上均有了很大提高，尤其在易用性上。同时对于开发者来说，也是一个“解脱”，清晰的模块化将会极大的提高维护者的效率。

个人分类: 生物信息|5177 次阅读|0 个评论

带简并碱基的短序列比对工具seedtop

热度 1 anny424 2010-5-3 18:30

blast是机器猫的口袋，里面的工具五花八门，却不能乱用。可能你对blastx、blastn、blastp都很了解，却不太会注意到还有个seedtop。前三种工具可用于较长序列的比对，可以容忍简并碱基的存在，把他们一律当成N来处理；也可用于短序列比对，但不允许有模糊的简并碱基存在。如果你想从输入序列中找到哪些序列包含目标结构域motif以及所在的位置，或找出哪些motif出现在这些序列中，就要通过结构域与该序列进行比对来实现。通常结构域是短的，并且带有简并碱基，例如 AACNNNNNNRTAYG ，这时就可以用seedtop来进行序列比对。它就在本地化blast包里面，用法如下： 1.结构域输入格式： ID motif1 PA -G-E-x- - -x(5,11)-R- -A-x- -x- . \ ID motif2 PA - -x-{H}-G- -x- -{L}-x- (4)-x(2)-G. 2.数据库格式化用formatdb将fasta格式的数据库格式化 3.命令 seedtop -k pattern.txt -d refseq_protein -p patternp -o db.out 4.输出结果 seqno=892602 gi|33859524|ref|NP_034048.1| ID Cyclic nucleotide-binding domain signature 1 PA - -x-{H}-G- -x- -{L}-x- (4)-x(2)-G HI (449 450) (452 454) (456 457) (459 462) (465 465) seqno=892873 gi|51470807|ref|XP_290552.4| ID Cyclic nucleotide-binding domain signature 1 PA - -x-{H}-G- -x- -{L}-x- (4)-x(2)-G HI (374 375) (377 379) (381 382) (384 387) (390 390) 具体用法解释参考资料： BLAST Program Selection Guide Search for Sequence Patterns Using seedtop 附：国际纯化学和应用化学联合会碱基符号 Deoxyadenine A Deoxycytosine C Deoxyguanidine G DeoxyThymidine T Deoxyuracil U Deoxyinosine I A+C+G V A+T+G D T+C+G B A+T+C H A+T W C+G S T+G K A+C M C+T Y A+G R A+G+C+T N

个人分类: bioinformatics笔记|9938 次阅读|2 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: blast

相关帖子

相关日志

关闭 安全验证

标签: blast

相关帖子

相关日志

关闭安全验证