科学网

 找回密码
  注册

tag 标签: 序列分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

在EC Neurology 杂志抗击COVID-19 特刊正式出版之前
conjugate 2020-9-24 12:23
近期收到国际神经学杂志( EC Neurology, ECNE https://www.ecronicon.com/neurology.php )主编的邮件,ECNE主编通知我,从3月份以来一直在策划和准备的抗击新冠病毒特刊的全部23篇论文(超过320页) 经过ECNE杂志邀请的评阅专家们辛勤审阅,在多遍反馈之后英文和内容双重优化反复修改的23篇论文,终于全部通过编辑部的严格审核正式接收。计划在今年的 10月份ECNE杂志以特刊的模式正式出版。配合这个特刊即将发表,自己利用论文中的部分图示做了一个封面如下,也期待着正式发表的特刊封面能给读者留下良好的视觉观感。 在抗击新冠病毒肺炎特刊即将正式出版之际,对从 1 月份以来研究团队所做的工作进行回顾具有重要意义 。 从 2020 年 1 月以来由于新冠病毒在国内和全球肆掠 扩 散困 扰 ,国 际 和国内的航班和旅行计划完全停滞,原来 预 定好寒假期间 1 月底去澳洲访问, 2 月中旬到新加坡召开 SCON 国 际专业 会 议的行程立即被打断。需要带领2个研究生在新加坡会议做 的三个 报 告,通过国外朋友的介绍, 恳请 在新加坡学习的中国留学生代 讲 。由于处于云南大学的寒假期间,研究团队的研究生 们 都分 别 回家度假,从黑 龙 江大 庆 ,吉林长春,北京,山西太原,河南 周口 / 南洋/开封/安阳,湖北武 汉 /襄阳, 陕 西咸阳,四川 乐 山/内江,到云南昭通/昆明等,分散在全国各地。 从突入其来的疫情报警开始,到武 汉 封城 ,团队成员也有几个被封锁在武汉和湖北地区。我 们 研究小 组 成 员们 不 约 而同地在网上 组织 起来,采集病毒序列数据根据最新 发 布的数据,估 计 病毒 扩 散的速率等,希望能用已 经 研究多年的随机序列分析技能,利用基因序列可 视 化技 术 在分析新冠病毒序列方向对抗击新冠病毒有所 贡 献。尽管基因序列分析在我们的团队中已经进行十多年,但通常只有 1/3 学生把该方向作为主要探索方向,关注着从古细菌,烟草,拟兰芥,水稻,蠕虫,玻璃鱼,海鞘,海豚,人类基因染色体,猿猴基因,十二生肖动物基因,和非编码 与 编码 基因序列等不同项目,没有特别关注过分析病毒基因序列。而 2/3 的团队成员,则将研究聚焦在量子密码序列,经典密码序列,心电图序列,脑电图,肌电图,蝙蝠回声序列,三峡库区河流水位流量分析等,精密分析和处理的前沿理论和应用研究之中。 面对日益严峻的国内和国际疫情发展状况,根据我 们 已有的研究 积 累和 预计 的 发 展潜力,我果断地做出决定,要求所有 13 名研究生,特 别 是 5 名 2020 年中旬即将毕业的 研 3 学 生,立刻放下手中的 课题 ,把研究聚焦到新冠病毒基因序列分析和 处 理之上。以这个团队为基础加上老师和已经毕业的学生,整个团队一共包括 17 个成员在变值体系的各个层面各具特色。 为了协调这个 规模不大但分散在各地,成员各具特色的精悍团队 ,协同 进 行新冠病毒基因序列分析的前沿应用科学研究工作。针对国际新冠病毒肺炎疫情发展本身在新冠病毒序列的溯源,变异和进化方向国际社会各阶层大众的急切需求, 分析提炼出探索 新冠病毒序列分析核心部分,构造出元基因 组 学分析系 统 分层结构化支撑架构,以两个部分 为核心 ,包含 12 组 各具特色而相互内蕴关 联 的分析 处 理功能模 块 。初步完成体系架构 设计 之后不久, 利用 每个学生采集到的批量病毒基因数据所提供的素材,形成超 过 80 页 的 设计 文档,各个特定 处 理功能都有流程描述 说 明,和典型的可 视 化 结 果展示。 在中科院西双版纳热带植物研究所专注东亚蝙蝠群落的基因分析专家指导下,团队顺利地从 美国 NCBI 基因数据库中下载到上百组不同的病毒序列和各地的新冠病毒全基因序列,到 2 月下旬,配合国家自然科学基金的抗 击 COVID-19 专项 基金的申 请 工作, 各个成 员 手中都 积 累不少可 视 化 结 果,以及相当数量的 PPT 报 告文档。 在 2 月份,团队自发地新冠病毒研究探索工作受到云南大学科技处的关注,针对团队的短板,建议我们求助云南大学生命科学学院已经在穿山甲病毒基因溯源分析方面经验丰富的专家支持。在生科病毒专家团队的大力支持下,我们获得全球汇集新冠病毒基因序列数据库 GISAID , 提供的遍布 100 多个国家,超过 6 千组最新的新冠病毒基因组数据。利用这些宝贵的批量病毒基因数据资源,近一步扩展批量分析和可视化群聚等前沿分析展示特性。也从这些 1-4 月全球病毒扩散 初期 的第一手新冠病毒基因序列精细分析之中,利用新开发的组合熵,平均熵,集成熵等处理模式和已有的拓扑熵处理功能,从批量新冠病毒序列之中看到明显与新冠病毒基因序列起源,变异和进化等,特征相关的量化测量效应。 伴随着2月底进入云南大学春季学期开学,为了阻断疫情扩散,从3月份起云南大学的所有课程都在网上教授,开始了前所未有的线上教学。我承担教授的信息安全学课程,史无前例地由始至终在家里线上进行。腾讯的空中课堂为分散在全国各地的师生们提供了网络课程讲授和视频交流平台。在寒假中停止的变值体系研究系列讨论会,也趁新学期伊始利用网络平台恢复每周一次的团队交流状态。 在3月 中旬,意外地接到认识多年一直关注前沿研究老朋友,云南大学物理系张一方教授的电话。为了抗击新冠病毒肺炎,他邀约到几个在抗击新冠病毒肺炎医疗救护一线,资深的中医中药专家,加上他本人研究多年的整体医学架构体系和非线性科学的成果,作为特邀编辑,从 国际神经学( Neurology )杂志申请到一个特刊,专门针对新冠病毒肺炎的分析,诊断和治疗前沿探索研究。他在电话中,热情地邀请我作为这个特刊的编辑之一组织稿件。经过仔细考虑之后,我决定接受邀请,趁这个难得的机遇,把这段期间团队系列研究成果,开拓较快系统发表的路径。 虽然团队成员在经历 2 个多月的聚焦研究开发之后,都有系列研究成果以及 PPT 材料支撑。但是这支团队,除了 2 年级和 3 年级的研究生有几篇中英文论文发表写作经历之外,4名 1 年级的研究生完全缺乏基本的论文写作经验。为了使每个成员都能以第一作者模式参加这次特殊的抗疫一线的写作战役,制定出英文论文写作流程,选定 Springer Latex 论文模版,确立合理的写作规范,提供描述结构和内容提纲等。也要求有写作经验的团队成员,帮助学弟学妹们一同努力。由于新冠病毒的全球扩散的无形压力,积极配合杂志编辑部要求在 5 月 1 号之前完成初稿,我们在 4 月初给国际神经学杂志编辑部提交了包含 19 篇论文标题和作者的内容目录文档,作为抗击新冠病毒肺炎特刊的初期策划文案。 整个 4 月,团队的每一个成员相互合作,都在为至少完成一篇第一作者的研究论文积极努力,到了 4 月底汇集到的论文数目超过预期,我们这个团队一共完成 21 篇论文( 贡献最多 的第一作者提供 3 篇),加上张教授汇集到的 2 篇论文,形成具有 23 篇原创论文,总页数超过 320 页的特刊初稿。 非常高兴地看到,团队成员们在这个克服困难的创作过程中都逐步地成长起来。各个成员表现出色。而聚焦研究模式,使得初期确定的 2 大部分 体系架构, 扩展成为 3 大部分,精细的处理模块也从 12 个增加到 18 个。最有意义的扩展为新增加的那个部分,聚焦于量子热动力学+信息熵形成的 4 种基因索引模式,提供海量病毒序列 在 等熵 值 分布条件下形成可视化高维分布投影图示。 几天前 从网页 ( https://www.sohu.com/na/417066354_99988845 ) 上读到,华为创始人任正非在最近的讲话中反复提到:“上世纪五十年代中国科学院吴仲华教授的三元流动理论,对喷气式发动机 的 等熵 切 面计算法,奠基了今天的航空发动机产业”。 可以预计:以 量子热动力学+ 信息熵表示形成的新型基因索引为代表的生物信息分析核心技术,将对遍布世界的海量基因序列大数据,起到吴仲华院士三元流动理论对先进航空基础研究相似的,面向元基因组学分析系统应用基础的支撑作用。 从 5 月到 9 月研究进展继续推进,伴随着疫情好转各地逐步复工复课,社会次序逐渐恢复。今年毕业工作的 5 名研究生克服一系列困难,特别是封城滞留在武汉的研究生,以新冠病毒分析为基础,通过答辩顺利毕业。大部分团队成员陆续从全国各地返回昆明,云南大学于 8 月底老师正式 面对学生 开学 授课 。 在这个期间,特别在 7月底,分别从 GISAID 获得200多个国家和地区超过6万组新冠序列,以及从英国新冠病毒基因组研究联盟 COG-UK (the COVID-19 Genomics UK Consortium, https://www.cogconsortium.uk/ ) 获得 超过2 万组英国普查新冠病毒基因组数据等。该联盟为仅次于美国研究规模的研究联盟,4个与基因组学分析健康和医疗关联的政府机构,以牛津和剑桥生物科学团队为首的大批UK顶级大学和国际知名的科研团体 支撑 ,具有先进的基因测序设备,大数据存储采样检测海量数据群集和并行分布式超级计算机阵列系统支撑,积极投入抗击新冠病毒肺炎的科学研究之中。通过分析这些从 GISAID 和 COG-UK 获取的批量基因组数据,变值体系研究团队对后续的工作充满信心。 尽管在此期间陆续提交的几个基金项目申请进展都不好,可能这个团队进入病毒基因分析领域时间太短,以及针对生物基因分析软件工程师们,突发奇想而创造出的前沿探索成果太新,难以说服跨越几个领域在病毒基因分析应用领域的评审专家恪守的标准,缺乏普及的高质量成果和高引研究论文等,成为团队的明显短板。 但是无论拒绝列出的是什么理由,我们独创的元基因组学分析系统所提供的系列研究成果 ,能够与 GISAID 病毒基因组数据库 ( https://www.gisaid.org ), Nextstrain 新冠病毒发育树 ( https://nextstrain.org ) 和 COG-UK 系列成果为 代表的国际前沿病毒基因序列发育树和批量新冠病毒分型/分类表示研究和应用做交互比较。所发表的系列成果与世界上其它高水平新冠病毒研究团队发表的结果相比,依然独出一帜;变值体系的系列高维展示结果提供特殊的整体基因组序列分析模式和极为丰富的可视化投影功能;以最先进的生物信息分析学和分层结构化生物信息知识模型为基础,以基因索引:量子热统计动力学+信息熵,为核心的新型元基因组学分析系统,在经历了各种磨难,算法和结构面向应用优化之后,在不久的将来能够进入国际社会为全人类的大众健康服务。 无论前进的道路有多么艰难,一旦市场化应用的时机成熟,这些先进的前沿生物信息学分析工具所伴随的应用研究成果,会被工作在生命科学应用研究一线的新一代病毒基因分析专家接纳,全新的检测和观察模式将会作为他们日常分析流程处理的组成部分 ... 延续着5月份对组合熵用于批量新冠病毒基因组的研究论文, 即在本人长期学术研究生涯中第一篇预印本 ( http://blog.sciencenet.cn/blog-629831-1235567.html ) 的路径,这批 21 篇原创型研究论文,先后在预印本网站 Research Square ( https://www.researchsquare.com/ ) 上经历多遍针对英文+内容综合型的描述结构增强, 反复修改 提炼 和精确描述优化之后,全文登出。 至此在抗击COVID-19研究探索方向 上,团队 累计 发表的预印本数目达到22篇。由于这些预印本提交的时间不同,而且各个版本修改更新次序各异,尽管都汇集在同一个网站,但对于感兴趣的读者,如何才能恰当查询到合适的论文,还是一个问题,查询使用都不方便。 为了大家方便阅读和理解,我们将论文按内容整理成为 相关 群聚,整体分划为6个部分 (I-VI),每个部分包括2-10篇代表性论文,分别为 I Architecture of Metagenomic Analysis System 元基因组学分析系统体系架构 1-2 2篇 II Genomic Index Maps on SARS-CoV-2 新冠病毒基因索引 3-7 5篇 III Clustering Projections and Integrations 群聚投影和集成分布 8-9 2篇 IV Global Projections for COVID-19 新冠病毒肺炎的整体投影 10-19 10篇 V Machine Learning Approaches 机器学习处理模式 20-21 2篇 VI Whole Chinese Medicine 整体中医中药学 22-23 2篇 对应各个部分,列出为该专辑准备的扩展内容目录,对希望阅读论文全文的读者,在ECNE特刊正式发表之前, 从各个标题之后的URL链接,方便地获取 需要阅读的原创研究论文。 期待感兴趣的读者阅读顺利,团队将耐心地听取各个领域专家和读者们精辟地反馈意见和建议 ... Special Issue for EC Neurology Advanced Metagenomic Analysis and Whole Medical Practice in Fighting COVID-19 Editors: Jeffrey Zheng, Yuan Fan, Tao Hong, Yi-Fang Chang Contents 0. Introduction to the Special Issue, Yi-Fang Chang, Jeffrey Zheng I Architecture of Metagenomic Analysis System 1. A Visual Framework of Meta Genomic Analysis on Variations of Whole SARS-CoV-2 Sequences, Jeffrey Zheng, Jianzhong Liu https://www.researchsquare.com/article/rs-65152/v2 2. Input-Output Types of Fifteen Modules on Discrete Real Measurements for COVID-19, Jeffrey Zheng, Minghan Zhu https://www.researchsquare.com/article/rs-65158/v1 II Genomic Index Maps on SARS-CoV-2 3. Visualizations of SARS-CoV-2 Genomes on Genomic Index Maps, Jeffrey Zheng, Minghan Zhu, Mu Qiao, Yang Zhou https://www.researchsquare.com/article/rs-65159/v2 4. Visualizations of Topologic Entropy on SARS-CoV-2 Genomes in Multiple Regions, Mu Qiao, Renyang Liu, Zhenhui Wang, Xinmei Li, Jeffrey Zheng https://www.researchsquare.com/article/rs-65305/v1 5. Visual Variations between Pairs of SARS-CoV-2 Genomes on Integrated Density Matrix, Minghan Zhu_Jeffrey Zheng https://www.researchsquare.com/article/rs-72020/v1 6. Visualizations of Combinatorial Entropy Index on Whole SARS-CoV-2 Genomes, Yang Zhou, Jeffrey Zheng https://www.researchsquare.com/article/rs-68271/v1 7. 2D Visual Analysis of SARS-CoV-2, Ruoxue Wu, Mu Qiao, Jeffrey Zheng https://www.researchsquare.com/article/rs-68275/v1 III Clustering Projections and Integrations 8. Visual Representations of SARS-CoV-2 Genomes in Multiple Regions on Integrated Maps , MingHan Zhu_Jeffrey Zheng https://www.researchsquare.com/article/rs-68270/v1 9. Cluster Analysis of Visual Differences on Pairs of SARS-CoV-2 Genomes, Minghan Zhu, Jeffrey Zheng https://www.researchsquare.com/article/rs-72027/v1 IV Global Projections for COVID-19 10. Comparative Study of Pathogenic Viruses Carried Between Species, Xin Zhang, Zhaoyu Pan, Jeffrey Zheng https://www.researchsquare.com/article/rs-72028/v1 11. 2D Similarity Map of Multiple Coronavirus Gene Sequences, Huaxian Zheng, Jeffrey Zheng https://www.researchsquare.com/article/rs-72697/v1 12. Protein Coding of Variations on SARS-CoV-2 Genomes in Various Regions , Tao Li, Jeffrey Zheng https://www.researchsquare.com/article/rs-72699/v1 13. Mutational Analysis of SARS-Cov-2 Genomes in Key Cities of China, Qiwei Cui, Jeffrey Zheng https://www.researchsquare.com/article/rs-72695/v1 14. Similarity Comparison of Multiple Coronavirus Sequences from 2D to 1D Linearizing Transformation, Feng Deng, Jeffrey Zheng https://www.researchsquare.com/article/rs-73184/v1 15. Momentum Distribution of SARS-CoV-2 Sequences on Variant Maps, Xinmei Li and Jeffrey Zheng https://www.researchsquare.com/article/rs-74603/v1 16. Functional Group Decomposition of Multiple Coronaviruses on Variant Maps, Liuyun Du, Jeffrey.Zheng https://www.researchsquare.com/article/rs-74604/v1 17. 3D Visualizations of Multiple Coronaviruses on Whole Genomes, Zhongwei Zhang, Tingyan Duan and Jeffrey Zheng https://www.researchsquare.com/article/rs-76302/v1 18. Similarity Comparisons of SARS-CoV-2 Samples between Wuhan and G20, Zhenhui Wang, Mu Qiao, Jeffrey Zheng https://www.researchsquare.com/article/rs-74630/v1 19. Visualizations of Multiple Probability Measures for SARS-CoV-2 Genomes, Tan YAO, Jeffrey Zheng https://www.researchsquare.com/article/rs-74631/v1 V Machine Learning Approaches 20. Observing Variations of Differences on COVID-19 in Different Regions Extracting Type and Mutation Information, Jianzhong Liu, Jeffrey Zheng https://www.researchsquare.com/article/rs-74632/v1 21. Analysis SARS-CoV-2 Genomes of G20 Areas on Phylogeny Tree, t-SNE based on Machine Learning, Renyang Liu, Mu Qiao, Alima, Jeffrey Zheng, Wei Zhou https://www.researchsquare.com/article/rs-74633/v1 VI Whole Chinese Medicine 22. Nonlinear Whole Medicine, Extensive Quantum Medicine and Three Basic Origins of Disease , Yi-Fang Chang 23. A Review of Antiviral Research on Tibetan Medicine Triphala , Yanjiao Zhang, Qinyao Fan, Yuan Fan, Tao Liu
个人分类: 变值体系|3004 次阅读|0 个评论
[转载]蛋白质的序列分析流程
Lande 2013-3-14 15:21
蛋白质的序列分析流程 1 蛋白质序列的检索 1.1 从NCBI 检索蛋白质序列 http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Protein 1.2 利用SRS 系统从EMBL 检索蛋白质序列 http://srs.ebi.ac.uk/ 2 蛋白质序列的基本性质分析 2.1 蛋白质序列的信号肽分析 http://genome.cbs.dtu.dk/services/Signa lP-2.0/ http://genome.cbs.dtu.dk/services/Signa lP/ 2.2 蛋白质序列的跨膜区分析 http://genome.cbs.dtu.dk/services/TMHMM-1.0/ http://www.ch.embnet.org/software/TMPRED_form.html 2.3 蛋白质序列的亚细胞定位分析 http://pred ict.sa nger.ac.uk/nnpsl/nnpsl_mult.cgi 3 蛋白质序列的同源性分析 3.1 基于NCBI/Blast 软件的蛋白质序列同源性分析 http://www.ncbi.nlm.nih.gov/blast/blast.cgi 3.2 基于WU/Blast2 软件的蛋白质序列同源性分析 http://dove.embl-heidelberg.de/Blast2/ 3.3 基于FASTA 软件进行蛋白质序列同源性分析 http://www2.ebi.ac.uk/fasta3 3.4 两条蛋白质序列之间的同源性分析 http://www.ncbi.nlm.nih.gov/gorf/bl2.html 3.5 蛋白质序列的批量联网同源性分析 4 蛋白质序列的结构功能域分析 4.1 蛋白序列的motif 和Prosite 分析 http://www.isrec.isb-sib.ch/software/PFSCAN_form.html 4.2 蛋白质的结构功能域分析 http://sma rt.embl-heidelberg.de/ Clean the gel cassettes prior casting with ethanol Incubate the 2-D gels long enough (and with at least 100 ml/ gel) in fixing and washing solution prior staining 生物秀论坛网上搜集,更多精彩内容请访问h49ttp://bbs.bbioo.com/index.php http://www.ebi.ac.uk/interpro/interprosca n/ipsearch.html 5 蛋白质家族分析及其进化树的构建(方案) WEB RESOURCES FOR PROTEIN SCIENTISTS http://www.faseb.org/protein/docs/WWWResources.html
个人分类: 科学笔记|3348 次阅读|0 个评论
安徽2011年新分离的19株狂犬病病毒的N基因序列分析
热度 9 yanjx45 2013-3-1 12:03
原载《中国生物制品学杂志》 作者:吴杰 1 解庭波 黄思佳 1 沈智俊 1 王月 1 朱理业 2 曹明华 3 刘红 3 徐葛林 1 严家新 1    作者单位: 1. 武汉生物制品研究所狂犬病检测中心,湖北 武汉 430060 ; 2.  阜阳市疾病预防控制中心,安徽 阜阳 236001 ; 3.   安徽省疾病预防控制中心,安徽 合肥 230601. 摘要: 目的 对安徽 2011 年新分离的 19 株狂犬病病毒( Rabies virus , RABV )街毒株的 N 基因进行序列分析,并比较其与代表性 RABV 街毒株及疫苗株之间的差异。 方法 采集安徽省淮北地区狗肉市场的犬脑组织标本共 121 份,咬人犬脑组织标本 10 份,采用直接免疫荧光法( DFA )和双抗体夹心 ELISA 法检测 RABV 抗原, 并通过颅内接种昆明乳鼠进一步鉴定毒株; RT-PCR 扩增分离病毒 N 基因,与 pMD18-T 载体连接测序后,与代表性 RABV 街毒株及疫苗株的 N 基因序列进行比对,并进行遗传学分析。 结果 在送检的 131 份犬脑组织中检出 RAV 阳性 19 株,其中 伤人犬脑组织阳性率为 90% ,狗肉市场犬脑组织阳性率为 8.26% 。 19 株 RABV   N 基因核苷酸序列同源性为 97.5 %~ 99.7 %,推导的氨基酸序列同源性为 98.7 %~ 100% ;与代表性人用和兽用 RABV 疫苗株相比, N 基因核苷酸序列同源性为 85.4 %~ 89.9 %,推导的氨基酸序列同源性为 94.9 %~ 99.1% ,核苷酸序列的变异主要为同义突变。 分离的 19 株 RABV 在系统进化树上高度聚集,与以往国内分离的代表性街毒株系统进化关系较近,在同一个分支( HN10 除外),与我国疫苗株 CTN - 181 株亲缘关系 最近,处于同一个亚群。 结论 从安徽省伤人犬和狗肉市场的犬脑组织中成功分离并鉴定了 19 株 RABV ,这些病毒株均属于基因 I 型 RABV ,且具有地域性特征。本研究对特定区域 RABV 的流行病学监测具有一定的意义。 关键词: 狂犬病病毒; N 基因;序列分析 中图分类号: R373.9  文献标识码: A  文章编号: 1004 - 5503 基金项目:国家 863 计划基金资助( 2007AA022402 ) . 通讯作者:严家新 Sequence Analysis on the N Genes of 19 Rabies Virus Strins Isolated from Anhui Province, China in 2011 WU Jie △ , XIE Ting-bo, HUANG Si-jia, et al ( △ Center for Rabies Diagnosis, Wuhan Institute of Biological Products, Wuhan 430060, China ) Abstract: Objective To identify and analyze the genetic characteristics of N gene of rabies virus strains isolated from Anhui province in 2011 , and to compare N gene with other representative street strains and vaccine strains used in China and abroad. Methods The brain tissues of 10 dogs that bit people and 121 dogs from dog meat market in Anhui province were detected by direct immunofluorescent assay (DFA) , ELISA. and PCR . The isolates were further identified by intracranial inoculation to Kunming suckling mice . The N genes of RABV were amplified by RT - PCR and cloned into pMD18-T vector for sequencing and genetic analysis. Results 19 rabies virus strains were detected from the samples. The N gene nucleotide homology of the 19 rabies virus isolates were 97.5% ~99.7%, and the deduced amino acid identity were 98.7%~100%.The identity of 19 rabies virus isolates with other representative street strains and vaccine strains used in China and abroad were 86% ~89.9%, and the deduced amino acid identity were 94.9% ~99.1% respectively. Most of the nucleotide variations were synonymous mutations. Conclusion 19 rabies virus strains were identified and isolated successfully from the samples of ogs from Anhui province which all belong to genotype I and show regional characteristic. Meanwhile, the positive rate of specimens from dog meat market summed up to 8.26% and China should step up efforts in supervising the dog meat market of Anhui and other regions. 【 Key words 】 Rabies virus; genetic analysis; N gene; dog meat market 该论文已由 《中国生物制品学杂志》 于 2013 年 1 月 21 日提前在线发表,并正式发表在该杂志2013,26(3):304-308 。全文下载: 安徽2011年新分离的19株狂犬病病毒的N基因序列分析.pdf
个人分类: RV流行病学|6305 次阅读|33 个评论
如何用perl处理测序文件
tanklao 2012-11-7 04:11
如何用perl处理测序文件
这是一段菜鸟级别的perl代码,即使你完全没有学过perl,看完本帖之后,你肯定可以用它来解决实际问题。 在做了大量的测序之后,测序公司给你的可能只是一个又一个的序列文件,而且在大多数情况下这些序列文件的文件名还含有测序公司的一些信息,而这些信息对你来说毫无用处。那么如何才能把有用的信息抽提出来,如何才能把这些测序文件快速地转变成一个fasta文件呢?这正是我攥写本帖所要解决的问题。 我结合一个具体的例子来分享一下我用perl来处理测序文件的方法。测序公司发送给我的文件的如下: L0408022_taG6_PEGFP-N.txt L0408022_taG7_PEGFP-N.txt L0408023_taG8_PEGFP-N.txt L0408023_taG9_PEGFP-N.txt L0408025_taY1_PEGFP-N.txt L0408025_taY2_PEGFP-N.txt 本例字中的所有文件均在附件上,有兴趣的战友可以下载下来自己操作一遍。 我希望得到的结果是: taG6 GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTATCATTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATCACATGTGTTAATGTGTATATTATAAAATATATATAGCGATAGATACATTTTCTTTAGATATAAAAAAGTTAATACTTTCTTATTTTACATGTCTATGGAATTTGTCAGTCATTATAGCTGCATGCTATTCCACGAATTACTTCTATTGGTGAACATACATACCCTTCTCTACCACTTTTACTGTCTAAAATCCACAGATTGCCCCTAATGTCCAAACATTTCTAGG taG7 GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTATCATTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATCACATGTGTTAATGTGTATATTATAAAATATATATAGCGATAGATACATTTTCTTTAGATATAAAAAAGTTAATACTTTCTTATTTTACATGTCTATGGAATTTGTCAGTCATTATAGCTGCATGCTATTCCACGAATTACTTCTATTGGTGAACATACATACCCTTCTCTACCACTTTTACTGTCTAAAATCCACAGATTGCCCCTAATGTCCAAACATTTCTAGG taG8 GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTAATCATTTTTGTGATTTACATGCATATTCATGTAAACAATCGTGTATTCACATTGGTTATGTGTATATTATAAAATATATAATAGCGGTATAGATACATTTCTTTAAGATATAAAAAAAGTTATACTTTCTTATTTTTCATGCCTTGGAAATGGTCCAAATGTCATTTATAGCTGCATTGCTATTTCTACGATTCCTCTATGGGAACAACCAATTACATTTCTTCTCCACTTTTTCTGTATAAATCCACGAGATTTCTCTCCTCTAGTGCAGGAGACAAGAC taG9 GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTAATCATTTTTGTGATTTACATGCATATTCATGTAAACAATCGTGTATTCACATTGGTTATGTGTATATTATAAAATATATAATAGCGGTATAGATACATTTCTTTAAGATATAAAAAAAGTTATACTTTCTTATTTTTCATGCCTTGGAAATGGTCCAAATGTCATTTATAGCTGCATTGCTATTTCTACGATTCCTCTATGGGAACAACCAATTACATTTCTTCTCCACTTTTTCTGTATAAATCCACGAGATTTCTCTCCTCTAGTGCAGGAGACAAGAC taY1 GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTAGTTTGGTCAACTTGTGTTTCTTTTCTCTATCATTTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATTCACATGTGTATGTGTATATTATAAAATATATAATAGCGTATAGAAACATTTCTTTAGGATATAAAAAAGTTATATACTTTTCTTATTTTCATGTCTATGTAATTGGTCAAGGTCAGTTTATAGCTTGCATTTGCTAATTCCACGGATTACTTTATTTGTGGACATACCAATAAACAT taY2 GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTAGTTTGGTCAACTTGTGTTTCTTTTCTCTATCATTTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATTCACATGTGTATGTGTATATTATAAAATATATAATAGCGTATAGAAACATTTCTTTAGGATATAAAAAAGTTATATACTTTTCTTATTTTCATGTCTATGTAATTGGTCAAGGTCAGTTTATAGCTTGCATTTGCTAATTCCACGGATTACTTTATTTGTGGACATACCAATAAACAT 那么如何快速实现?你先下载我的附件按照我的指示一步一步地操作就可以了: 1,安装perl,在windows下,去下载activePerl直接安装就可以。大多数的linux好像都安装了perl。这一步可以省略。如果没装请自己解决,linux用户解决这一点小问题一定是没有问题的,就不多说什么了。 2,解压附件,到你的文件夹。 3,运行tyhy2fasta.pl脚本文件。Window用户直接双击就可以了,linux用户在终端中运行 perltyhy2fasta.pl   4,运行完之后你可以看到有一个名字为seqconversed.seq的文件,打开看看。 里面的fasta格式的序列这是我们想要的结果。 接下来要实战性地解决你的测序文件问题。用文本编辑器打开tyhy2fasta.pl文件,你可以看到以下代码: 接下来我来解释一下每一行代码的意思,以及如何修改代码使之为你工作。 只要仔细认真地去看看我的注释,你会发现perl原来如此简单和如此亲近…… Tag:perl入门,perl实用技术,dna测序,序列分析,测序文件,转换fasta格式 原文首发丁香园:http://www.dxy.cn/bbs/topic/14484479 柳城的博客帮我转载并编辑了一下,阅读效果最好:http://liucheng.name/477/ 由于科学网博客不支持程序代码的发布我只好推荐读者到别人的博客看我的博文了。哈哈。
个人分类: 生物信息学|4287 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-28 15:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部