科学网

 找回密码
  注册

tag 标签: 密码子

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

Ensembl/Gencode数据库中基因注释统计
hayidahubei 2018-12-18 09:14
现在基因组非编码区域的注释条数越来越多,那么究竟注释了多少非编码基因,多少假基因呢? 这里仅以Gencode数据库中人类和老鼠的最新注释为例。在老鼠的注释信息中(Gencode M19),注释的基因数目总共为5.44万。其中蛋白编码基因大致是2.2万,lncRNA基因和假基因大致为1.3万。在人类的注释信息中(Gencode V29),注释的基因数目总共为5.87万。蛋白编码基因大致是2万;lncRNA基因和假基因大致分别为1.6万和1.47万。每类具体数目如下: GENCODE M19 GENCODE V29 TYPE COUNT TYPE COUNT Total No of Genes 54446 Total No of Genes 58721 Protein-coding genes 21969 Protein-coding genes 19940 Long non-coding RNA genes 12840 Long non-coding RNA genes 16066 Small non-coding RNA genes 6108 Small non-coding RNA genes 7577 Pseudogenes 13033 Pseudogenes 14729 - processed pseudogenes 9772 - processed pseudogenes 10679 - unprocessed pseudogenes 2873 - unprocessed pseudogenes 3535 - unitary pseudogenes 39 - unitary pseudogenes 219 - polymorphic pseudogenes 79 - polymorphic pseudogenes 41 - pseudogenes 67 - pseudogenes 18 Immunoglobulin/T-cell receptor gene segments Immunoglobulin/T-cell receptor gene segments - protein coding segments 494 - protein coding segments 408 - pseudogenes 203 - pseudogenes 237 Total No of Transcripts 137767 Total No of Transcripts 206694 Protein-coding transcripts 57776 Protein-coding transcripts 83129 Nonsense mediated decay transcripts 6816 Nonsense mediated decay transcripts 15291 Long non-coding RNA loci transcripts 18065 Long non-coding RNA loci transcripts 29566 以前只要是非编码我大致都认为是不能翻译成氨基酸的。但是后来越来越多的文章指出很多的非编码区域是可以翻译出氨基酸的。既然是可以翻译出氨基酸,那么就应该有起始密码子和终止密码子,也有可能有UTR区域了。出于个人好奇,我统计ensembl数据库中人类( Homo_sapiens.GRCh38.94.gtf )和老鼠( Mus_musculus.GRCm38.94.gtf )的每类注释的具体数目,以及这些注释中蛋白编码基因所占的总数目。具体数目如下表所示。 Mus_musculus.GRCm38.94.gtf Homo_sapiens.GRCh38.94.gtf TYPE AllAnnotation OnlyPcg Ratio TYPE AllAnnotation OnlyPcg Ratio CDS 512583 511014 0.996939 CDS 746504 745198 0.998251 5'UTR 92374 92064 0.996644 5'UTR 149930 149646 0.998106 3'UTR 83692 83574 0.99859 3'UTR 148491 148326 0.998889 start_codon 58377 57823 0.99051 start_codon 86454 86115 0.996079 stop_codon 54262 54141 0.99777 stop_codon 78562 78453 0.998613 exon 813724 734421 0.902543 exon 1262162 1119281 0.886797 transcript 137862 99138 0.71911 transcript 206601 151150 0.731603 gene 54532 22046 0.404276 gene 58735 19951 0.339678 #AllAnnotation: gtf文件中的所有注释信息。OnlyPcg:仅仅来源于蛋白编码基因的注释信息。 虽然在ensembl/gencode数据库中注释的蛋白编码基因仅仅只占总基因的34%(人类)和40%(老鼠),但是CDS, 5'UTR, 3'UTR,起始密码子和终止密码子的注释几乎全部来自蛋白编码基因。 为了进一步确定在这些注释文件中非编码区域是否存在CDS, 5'UTR, 3'UTR,起始密码子和终止密码子。我又进行了如下的统计(如下表所示). Homo_sapiens.GRCh38.94.gtf Type All Pcg Pseudo Lnc Snc CDS 746504 745198 533 0 0 5'UTR 149930 149646 76 0 0 3'UTR 148491 148326 128 0 0 start_codon 86454 86115 89 0 0 stop_codon 78562 78453 74 0 0 exon 1262162 1119281 43197 90747 7085 gene 58735 19951 15224 15949 7073 transcript 206601 151150 18404 29237 7085 #Pcg: protein-coding genes; Pseudo: Pseudogenes; Lnc: long non-coding genes; Snc: small non-coding genes Mus_musculus.GRCm38.94.gtf Type All Pcg Pseudo Lnc Snc CDS 512583 511014 404 0 0 5'UTR 92374 92064 122 0 0 3'UTR 83692 83574 89 0 0 start_codon 58377 57823 119 0 0 stop_codon 54262 54141 90 0 0 exon 813724 734421 22780 48732 6094 gene 54532 22046 13037 12673 6090 transcript 137862 99138 13947 17808 6091 现在的Ensembl数据库人类和老鼠的最新注释中,long/small non-coding genes都没有CDS, 5'UTR, 3'UTR,起始密码子和终止密码子。但是假基因都有。
个人分类: 基因组注释信息|9204 次阅读|0 个评论
生物的世纪:借助共享平台,打造自身品牌
flysky97 2018-2-28 13:50
编者按: 下文转自《创业邦》网站,原题为: 《基于共享渠道、共享研发的生物试剂行业的联合共育品牌生态》。 小编对文中部分观点持保留意见,例如,我认为正因为文中提到的服务及时性及渠道原因,喀斯玛平台的出现, 给各种类型的商家都同时带来了新的挑战和机遇 。 去年7月初,国家发改委、中央网信办、工信部等 八部门 印发了 《关于促进分享经济发展的指导性意见》 ,旨在大力促进共享经济的发展! “ 面向市场,共建共享 ”是喀斯玛商城的精神。用户可通过喀斯玛平台获取更丰富的货源信息,以及更便捷、更规范的采购体验和管理服务,进而实现多方共赢。喀斯玛平台自身独特的运行模式兼具互联网经济普遍特质,规范了科研采购管理,整合优化了上下游供应链。这种创新的科技服务模式,延展科技创新服务链,促进科技服务业专业化、网络化、规模化、国际化发展,形成覆盖科技创新全链条的科技服务体系。 通过五年的跨越发展已成为规范行业交易行为、促进高效健康发展的引领者。 平台与各地供应商进行战略合作,助力新品牌、新产品推广,基于价格优势,提升质量及稳定性,鼓励、引导、协助行业内企业的品牌建设,培养国际竞争力。 一年之计在于春! 2018年,商城将在技术服务、小型仪器等多个领域拓展业务,提升系统功能,强化服务! 竭诚欢迎各界人士与我们开展多种形式的合作 ! 附原文: 《基于共享渠道、共享研发的生物试剂行业的联合共育品牌生态》 魏春阳 北京密码子生物科技有限公司 公司的战略定位是为生物科研学者构建产品技术转化生态,共同建设科研用生物试剂,实现替代进口、缺陷改进、细分领域的产品;为掌握客户资源的渠道商联合建设共育品牌生态,努力打造中国人自己的生物试剂品牌。 初页:你所创业的领域,目前现状是什么样?存在哪些痛点? 一、市场规模与客户类型 中国生物试剂行业起步晚,底子薄。但随着我国经济的快速发展对科研投入力度的加大,科研试剂的需求也越来越大, 中国市场已成为世界第三大市场 。 预计2017年中国市场规模能达到500亿 。但目前国外品牌占有率达到了70%,中国优秀品牌寥寥可数。 中国生物科研试剂经费来源主要为政府投入 :据国家统计局数据公布,到2020年政府 科研经费投入约占全国GDP的2.5% 。随着政府对生物产业越来越重视,政府和各界也意识到生物产业是未来新一轮经济发展的“引擎”, 对生物基础科研和生物产业化等政策扶植和资金支持的程度不断加大,这必然会带动生物科研试剂的需求急剧加大 。 使用政府投入资金的客户主要为各科研机构、大专院校等。包含如中科院生命科学系以及其附属医院的研究实验室等,还有农科院体系的科研机构,此类型的客户约占了80%的市场份额。 生物试剂产品主要特性为刚需、快消、对公业务。 2013年起中科院和农科院相继建设国家政策驱动的 喀斯玛商城 和农科院采购平台,并将下属机构纳入平台,此类型客户对生物产品的唯一采购途径为两大采购平台。 二、销售渠道 目前生物试剂市场,分为三类渠道: 全国代理商、地区经销商和品牌商直销 。 全国代理公司的销售网络基本覆盖了国内各大城市,代理的产品包含试剂、耗材和仪器,很多公司代理品牌多达50种以上,大多无自主品牌,主要为客户提供产品的售后服务。 地区经销公司。这种类型的公司往往存在于大型城市和各省会城市,利用一定的客户关系和对当地市场的深耕细作。 品牌商直销是从2013年随着 中科院喀斯玛采购 平 台 、农科院采购平台的建设,才开始有所行动,在2017年随着两大采购平台的迅速发展,大多数品牌商都在采购平台上开启垂直采购通道,原来分散的地域流量正通过平台聚合成巨额流量,代理商和经销商所有环节的利益及格局将因此重新分配。 初页:该领域面临的机会和挑战是什么? 生物科研试剂行业的趋势展望 1、国产生物试剂的兴起 随着政府投入的加大,国产生物试剂的发展和壮大是个必然结果。特别是两大采购平台的崛起,在未来,市场格局将对品牌商发展更为有利,实体经销商将面临着生意难做的局面! 21世纪将是生物的世纪——自主品牌的春天。 2、服务的及时性 虽然采购平台是目前主流客户唯一的采购途径,但是采购平台-客户之间的服务空白也是目前采购平台很难兼顾到的地方。所以,未来的品牌商想要获得更多客户,必须要解决 服务及时 的问题。 初页:你的产品/服务及其定位分别是什么? 产品研发 传统公司在产品研发上投入是比较高的,大多数的公司拥有着少数的研发团队,而产品线如何丰富,研发投入与产品成果不成正比,也是传统公司比较困惑的地方。 我们是以缺陷改进、替代进口、细分品类做为产品的研发方向,公司的技术来源于一线科研人员的成熟技术成果转化。通过品牌共育生态建立轻资产的1000人科研生态。研发团队成员既是合作伙伴,行使科研体系研发职责;又为行业内的品牌推广者;同时又身为用户,根据需求行使产品采购权。用户和客户有较高的重合度,取之科研、用之科研。 在未来发展,通过上千位的生物科研精英的汇聚,面向人体大健康的基因检测产品定向研发转化,务求达到中国一流水平。 渠道和品牌 原先的中国生物试剂市场属于价格不透明、人情销售居多,正是这种市场环境,让经销商们如鱼得水,经营得都很轻松。但是随着中科院喀斯玛采购平台、农科院物资采购平台的上线运营,生物科研试剂品牌商在采购平台里逐渐开启了垂直采购通道,而主流客户采购的唯一途径就是两大采购平台。所以,很显而易见的是:原来分散的地域性由经销商销售的流量正通过采购平台聚合成巨额流量,经销商所有环节的利益及格局将因此重新分配。 采购平台是伴随着政策驱动的发展优势,比实体经销商运营成本更低,资源整合能力更强,对品牌商发展更为有利。而实体经销商将面临着生意难做甚至无生意可做的局面! 采购平台的崛起壮大是无可回避的,如此不如顺应趋势 。 正因如此,发展自主品牌反而拥有了新的机会。 我们的商业模式就是在趋势的方向上采用了共享渠道+共享研发=共育品牌,简单的说就是把经销商联合起来共育一个品牌,把科研人员联合起来共研一个品牌。 初页:你的产品/服务如何解决行业痛点? 我们目前做的事就是 顺应了行业发展的趋势,因为在国家政策驱动下的采购平台的崛起,市场流量呈现由采购平台集中供给状态 。本项目为基于共享渠道、共享研发的联合共育品牌生态,有望成为中国生物试剂市场品牌前列。 一、通过城市合伙人的加入,充分利用城市合伙人优的秀服务能力以及强大的客户资源,可以迅速扩大产品销售规模。 二、通过城市合伙人的客户资源转化、互联网成果转化平台的挖掘,建立轻资产的1000人科研生态。研发团队成员既是合作伙伴,行使科研体系研发职责;又为行业内的品牌推广者;同时又身为用户,根据需求行使产品采购权。用户和客户有较高的重合度,取之科研、用之科研。 初页:未来的产品规划是什么? 产品线 :通过上千位的生物科研精英的汇聚,进行产品线的合理布局,从科研试剂到面向人体大健康的基因检测产品定向研发转化,务求达到中国一流水平。 互联网成果转化平台 :建设可替代进口的生物试剂转化平台,针对可替代进 生物试剂的细分领域 ,直接服务于科研人员、团队而实现成果转化的与业服务平台。 初页:你的产品/服务与同行业竞争对手的差异性及优势是什么? 1、庞大且轻资产的研发团队 通过城市合伙人的客户资源转化、互联网成果转化平台的挖掘,建立轻资产的1000人科研生态。研发团队成员既是合作伙伴,行使科研体系研发职责;又为行业内的品牌推广者;同时又身为用户,根据需求行使产品采购权。用户和客户有较高的重合度,取之科研、用之科研。 2、强大的城市渠道 通过各地经销商做为城市合伙人的加入,城市合伙人既是经销商又是品牌商,更易充分调动自身优秀的服务能力以及强大的客户资源,可以迅速扩大产品销售规模。 (完) 注:上文不代表商城观点,愿与大家共同深入探讨,欢迎在文后留言 !
个人分类: 科技|2 次阅读|0 个评论
计算CDS中密码子的数量
mashengwei 2017-4-10 22:03
看到一个现金求助的题目: http://www.timedoo.com/task-id-1194.html 代码如下: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 __author__ = Sheng-Wei Ma 4 5 from Bio import SeqIO 6 from collections import OrderedDict 7 8 records = (r for r in SeqIO.parse( 'cds.fa' , fasta )) 9 count_file = open( 'cds.count.txt' , 'w' ) 10 fre_file = open( 'cds.frequency.txt' , 'w' ) 11 12 count_file.writelines( '%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\n' % ( 'name' , 'TTT' , 'TTC' , 'TTA' , 'TTG' , 'CTT' , 'CTC' , 'CTA' , 'CTG' , 'ATT' , 'ATC' , 'ATA' , 'ATG' , 'GTT' , 'GTC' , 'GTA' , 13 'GTG' , 'TAT' , 'TAC' , 'TAA' , 'TAG' , 'CAT' , 'CAC' , 'CAA' , 'CAG' , 'AAT' , 'AAC' , 'AAA' , 'AAG' , 'GAT' , 'GAC' , 'GAA' , 14 'GAG' , 'TCT' , 'TCC' , 'TCA' , 'TCG' , 'CCT' , 'CCC' , 'CCA' , 'CCG' , 'ACT' , 'ACC' , 'ACA' , 'ACG' , 'GCT' , 'GCC' , 'GCA' , 15 'GCG' , 'TGT' , 'TGC' , 'TGA' , 'TGG' , 'CGT' , 'CGC' , 'CGA' , 'CGG' , 'AGT' , 'AGC' , 'AGA' , 'AGG' , 'GGT' , 'GGC' , 'GGA' , 'GGG' )) 16 fre_file.writelines( 17 '%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\t%s\n' % ( 18 'name' , 'TTT' , 'TTC' , 'TTA' , 'TTG' , 'CTT' , 'CTC' , 'CTA' , 'CTG' , 'ATT' , 'ATC' , 'ATA' , 'ATG' , 'GTT' , 'GTC' , 'GTA' , 19 'GTG' , 'TAT' , 'TAC' , 'TAA' , 'TAG' , 'CAT' , 'CAC' , 'CAA' , 'CAG' , 'AAT' , 'AAC' , 'AAA' , 'AAG' , 'GAT' , 'GAC' , 'GAA' , 20 'GAG' , 'TCT' , 'TCC' , 'TCA' , 'TCG' , 'CCT' , 'CCC' , 'CCA' , 'CCG' , 'ACT' , 'ACC' , 'ACA' , 'ACG' , 'GCT' , 'GCC' , 'GCA' , 21 'GCG' , 'TGT' , 'TGC' , 'TGA' , 'TGG' , 'CGT' , 'CGC' , 'CGA' , 'CGG' , 'AGT' , 'AGC' , 'AGA' , 'AGG' , 'GGT' , 'GGC' , 'GGA' , 22 'GGG' )) 23 24 for i in records: 25 CodonsDict = OrderedDict( ) 38 if i.seq.startswith( 'ATG' ) and 'N' not in i.seq and 'Y' not in i.seq and 'K' not in i.seq and 'R' not in i.seq and 'M' not in i.seq and 'S' not in i.seq and 'W' not in i.seq: 39 for j in range(0, len(str(i.seq)), 3 ): 40 codon = str(i.seq) 41 if codon in CodonsDict.keys(): 42 CodonsDict += 1 43 count_file.writelines( '%s\t' % i.id) 44 fre_file.writelines( '%s\t' % i.id) 45 total = sum( for key in CodonsDict.keys()]) 46 print total, 47 for key in CodonsDict.keys(): 48 count_file.writelines( '%s\t' % CodonsDict ) 49 fre_file.writelines( '%.2f\t' % (CodonsDict /float(total))) 50 count_file.writelines( '\n' ) 51 fre_file.writelines( '\n' ) 52 count_file.close() 53 fre_file.close() 54
3549 次阅读|0 个评论
科研笔记:蛋白质编码基因和遗传密码可移位性理论的发现过程
DNAComputerMan 2016-4-7 15:31
2008年~2014年: 在进行密码子-氨基酸联合序列比对(Codon and Amino Acid Unified Sequence Alignment, CAUSA)软件设计和数据分析中,注意到HIV1/SIVCZ/SIVGB 三种病毒的外壳蛋白基因 Env 是完全移码的,然而其蛋白质序列高度同源。非常奇怪,但以为是特殊现象而未重视。 2014年3~5月: 硕士研究生王旭祥在氨苄青霉素抗性基因中引入移码突变后,仍有少数菌落存活,以为是污染了野生型。 但我觉得不是,应该是回复突变株。 经过Sanger测序,发现并非简单的回复突变。并且对恢复菌株进行传代培养,发现抗性恢复是一个渐进的过程,其中的抗性基因是野生型和各种恢复型混杂的状态。 经过比对,发现如果通读,移码突变的蛋白与原蛋白具有很高的同源性。 据此,我提出了一系列的疑问: 1、如何解释移码突变的蛋白与原蛋白具有较高的同源性?这是否具有普遍意义? 2、是否存在转录或翻译水平纠正移码突变的可能?还是移码的蛋白仍然具有一定的功能? 3、密码子的简并性和偏好性是否存在协同作用,共同降低了降低移码突变的危害? 4、用移码产生的密码子和原密码子的氨基酸替换分值,是否高于随机氨基酸替换分值? 5、细菌偏好的密码子是否也是移码突变后和原密码子的氨基酸替换分值高于随机氨基酸替换分值? 6、 去除移码基因的终止密码子是否可以恢复其功能? 7、 如果移码突变的基因缺失可以被定向修复,那么是否意味着移码的/缺损的mRNA可能会被转运回细胞核,指导靶向性的基因修复? 2014年6~10月: 我编写程序对编码基因和密码子表进行分析,并 通过实验和大数据分析,部分回答了这些问题。 1、发现所有生物所有基因的移码 突变的蛋白与原蛋白具有较高(约50%)的同源性; 2、证明了这种同源性主要由密码子表决定,而与序列本身无关。 3、提出了“通读-恢复”模型和“一个基因,三条多肽链”的假说。 4、通过密码子偏好性分析,证明 越常用 的密码子对,其 移码容忍度也越高。 2014年11~12月: 撰写论文。 2015年1~2月: 投稿 Science, Nature Genetics, PLoS Genetics, MBE , 均未经送审即遭拒稿。 2015年1月23日: 我们将论文草稿发表于 PeerJ Preprints . 新的疑问: Are their de novo predicted structure similar? One gene, three isoforms,infinite possibilities. Biological systems are extremely effective, no systematic waste is allowed. There must be a highly effective solution for the frameshift problem. And the frameshifted protein must be useful. Active sites are encoded by either synonymous frameshift substitutions, or hidden stop codons. Does hidden stop codons(HSCs) appears more often nearing the active sites? Does the numbers of HSCs related to the number of active AAs? The others suggestions are always very helpful! Dr. Wenli Li suggested that we should use other genes other than bla, so that the bacteria will not have the problem of surviving . In fact, bla is still beneficial as we can see how the frameshifted gene were repaired with (in ampicillin) and without (in tetracycline) the surviving pressure . If only one frame of the CDSs is used for coding a peptide, and every three base code for only one AA, it is a huge waste of DNA storage. If each frame codes a peptide, the storage effieciency is much higher, and probably reaches the highest upper limit. 2015年3月10日: 撰写、提交国家自然科学基金申请书。 2015年8月18日: 经过不抱太大希望的漫长的等待,基金获批准,评价甚佳,建议中肯,令人欣慰。 有了经费支持,可以深入开展研究了。 2015年9月2日: 市立医院, discussion with Dr. Dong,he thinks that shiftability is relevant to the speciation in bacteria species. I agree. 2015年9月8日: 组会: 1、刘永强通过分析 移码基因中 隐藏的终止密码子(HSCs) 出现位置, 发现 HSCs 大多数是在活性中心的前面,而活性中心后面很少出现终止密码子,这可能是一个重大的发现,可能证实了 HSCs 就是启动移码基因读码框修复的信号:如果HSCs出现在 活性中心 后面,那么 活性中心前面的发生移码突变无法被 修复;而 如果HSCs出现在 活性中心前面 ,那么 活性中心前面的发生移码突变可以被 修复;而 活性中心后面发生的移码突变无需 修复,因为可移位性保证了移码之后的蛋白质序列与原蛋白高度同源,只要活性中心不变,该蛋白极有可能保持原有活性。 2、赵金乔提出不同的终止密码子终止效率不同,是否和通读效率有关? 三个终止密码子也许不会同时通读,哪个通读,哪个不通读,是否有规律可循?(见后:这个问题放了很久,直到2016年4月才引起重视) 2015年9月15日 组会: 给新来的研究生和SRDP本科生讲述研究进展,总结和布置下一步工作。 Finished works: 1 、 提取移码恢复细菌质粒 DNA , 做 一 代 测序,检测氨苄青霉素抗性基因的变异情况 。 2 、 主要模式生物野生型和移码型蛋白质序列的比对分析,计算野生型蛋白与移码型蛋白之间的相似性及蛋白质编码基因的可移位性; 3 、 天然 密码表密码子移码替换的氨基酸替换分值的计算分析,通过计算密码子随机替换、摆动和移码替换的氨基酸替换分值的分析,分析天然密码子容忍移码突变的特性 ; 4 、密码子和密码子对偏好性分析。 Future wet-lab experiments 移码突变 读码框恢复的分子机理 研究 : 1 、 表达 出移码型的 蛋白 : 检测 移码型的蛋白是否有功能,证明终止密码子是启动读码框修复的信号。 2 、 检测 移码 基因的 读码框恢复过程 : 提取移码 突变 恢复 细菌质粒 DNA 三代测序。 3 、 检测细菌基因组的变异情况 : 分别 提取正常和移码恢复细菌基因组 DNA 二 代测序(重 测序 ) 。 4 、 检测细菌 转录 组 的变异情况 : 分别 提取正常和移码恢复细菌 基因组 RNA 二代测序 ( 表达谱) 。 5 、 检测 细菌 蛋白质组学 的 表达 情况 : 分别 提取正常和移码恢复 细菌 蛋白质 蛋白质组学分析 。 6 、基因 功能验证试验 : 找到移码基因修复相关的蛋白和基因 基因敲除、 RT-PCR , Northern, Western, ELISA, 等等。 7、用移码突变进行体外分子进化: Future bioinformatics (dry-lab) works 1 、 移码基因中终止密码子位置和数 量分析; 2 、 对 天然密码表进行 变换 : 生成 各种可能的遗传密码表 ,计算 他们的 密码子 随机替换、摆动和移码替换的氨基酸替换分值的分析,比较天然密码表与各种可能密码表容忍移码突变的特性之差异 ;及其对基因组中编码基因的可移位性的影响。 3 、 基因组大数据 生物信息学 分析: 找到生物体中存在的有功能的移码突变基因,阐明其在物种分化和演化中的作用; 4 、 转录组大数据 生物 信息学分析: 找到 生物体中存在的有功能的移码突变基因 , 以及可变剪切体 ,阐明其与可移位性的关系。 5、癌细胞转录组和蛋白质谱分析: 癌细胞是否失去了移码突变修复能力?这是不是细胞癌变的原因之一? Related works: 1、密码子偏好性/氨基酸成分比例是否可以作为物种鉴定的依据? 2、为何对上游基因进行移码可增加下游基因表达? 2015年9月23日~9月29日: 赴日本姬路市参加第42届核酸化学国际会议,报告了PEAR制备寡核苷酸研究,反响甚佳。特别 爱提问的 CR,Pearson问到:PEAR如果用有链置换活性的聚合酶,对PEAR有何影响。吾答曰:我们在PEAR中使用的是高保真DNA聚合酶,没有链置换活性。有链置换活性的DNA聚合酶大多不耐热,不可用于PEAR。而即便有链置换活性的高度 耐热 DNA聚合酶,也对PEAR反应没有什么贡献。因为PEAR反应依靠的是热变形和复性驱动的“ 滑动-切割机制 ”,使其扩增特异性较高,产物纯净。 CR,Pearson本人报告了G四连体的研究。G四连体可扩增导致疾病。其原因可能是引起了一些蛋白基因表达翻译起始位点改变,表达出移码的蛋白。 在会间与CR,Pearson讨论了我们发现的密码子可移位性,询问了他们如何检测出移码的蛋白,答曰采用质谱分析。而后又发现Herve最新发表的论文也采用了 质谱分析 检测出移码的蛋白 ,颇有启示,指明了下一步分析移码型蛋白质的实验技术路线 。 2015年10月8日: 找市立医院董主任探讨了一下午,有诸多收获: 1、王亚蕾表达成功移码型蛋白,但检测表达菌株无抗性,遗憾之余,和董全江主任探讨,他指出可能是抗生素浓度太高,应做MIC分析,找到合适的抗生素浓度,恍然大悟! 2、刘永强,进一步分析表明约70%的E. coli蛋白质编码基因均符合此前发现的规律: 移码后 隐藏的终止密码子(HSCs) 出现位置 大多数是在活性中心前面,而活性中心后面很少出现终止密码子,又一惊喜! 3、我阐述了 癌细胞是否失去了移码突变修复能力?这是不是细胞癌变的原因之一?可用质谱检测分析,董主任表示很有可能,并愿提供样品,真是太好啦! 4、董进一步询问了移码基因修复分子机制研究的思路,以及为何我认为HSCs是启动修复的信号,我用“修补马路”做比方 进行了详细阐述 :马路上有一个坑,我们会越过,但若有很多坑,我们必定会发出信号(打电话),召集修复机构 (叫来马路维修工人) ,启动修复过程。但诸多细节尚需实验探索证实。 5、董进一步阐述了他认为移码突变可能导致新物种产生的观点,我深表同意,并指出HIV/SIV外壳蛋白就是一个很好的实例。董的观点将密码子可移位性研究由基因水平提升到了物种水平,真是天作之合!我们进一步明确了下一步研究方案:用BLAST查找不同物种中的移码基因,尤其是老虎和人类幽门螺杆菌基因组分析,值得深入。而且移码突变可能成为合成生物学中人工构造新物种的方法,真实越来越有趣了! 2015年10月28日组会: 1、王亚蕾MIC实验结果一波三折:第一次实验测定出携带移码突变的 bla 基因的大肠杆菌的MIC为4ug/mL,但未设对照组。第二次做了对照组(空质粒) 的大肠杆菌的MIC为2ug/mL,二者有差异但只相差一倍,不太可靠。令其重复实验,然而第三次二者没有差异,分析可能是因为未加入诱导剂,基因不表达。第四次令其 做3组:1组空质粒,另外2、3两组都是带移码突变的amp基因质粒,1、2组加诱导剂,3组不加。结果不稳定,令人失望。 2、刘永强的分析结果发现有误:虽然 约70%的E. coli蛋白质编码基因 移码后 隐藏的终止密码子(HSCs) 出现位置 大多数是在活性中心前面,而活性中心后面很少出现终止密码子,但活性中心本身也大多数是在基因后面。活性中心前后HSCs的密度并无明显差异。 如果 活性中心果真大多数是在基因后面,也是有意义的,但每个基因有多个活性中心,有些在前面,有些在后面,因此 因此次分析结果意义并不像他想的那么大。但至少也证明了HSCs并不是均匀分布的。 2015年11月5日组会: I、 刘永强: 分析结果证实了移码后的终止密码子(HSCs)在活性中心所在的位置出现峰值。 赵金乔提问: (1)分析中 移码是人为的而不是真实存在的, 移码的基因并不一定存活,该分析有何意义? ( 2) 移码的基因活性中心位置改变, 终止密码子(HSCs)在活性中心所在的位置出现峰值有何意义? 李春燕提问: 活性中心两侧也有不少HSCs,为什么? 我回答: (1)根据可移位性理论,预计HSCs可通读并转变为活性中心,则在活性中心位置应该出现HSCs高峰,这是必要而非充分条件; (2) 虽然 移码的基因活性中心位置改变,但新的位置有的在前面,有的在后面,因此 终止密码子(HSCs)的峰值依然会出现在在活性中心所在的位置。 我的问题: 长的基因较少,短的基因较多, 基因长度是否有影响?建议将位置用长度标准化后作图。 彭海波提问: 两个或多个活性中心如何考虑? 张建业建议: 一个、 两个或多个活性中心分别作图,是否会出现1、2、多个峰值? II、 王亚蕾: 1、MIC实验: 结果继续一波三折: 第四次 做3组:1组空质粒,另外2、3两组都是带移码突变的amp基因质粒,1、2组加诱导剂,3组不加。重复三次,结果: 1次无差异, 2次有差异,但差异较小;怀疑为假阳性;再次重复实验,结果居然与预期相反。 2、碘量实验: 结果与预期相反,怀疑加错样。再次实验,实验组结果与预期相符,诱导组褪色而未诱导组未褪色,但阳性对照未褪色。 3、刘恺提出: 是否所用菌株自身有一定的抗性,导致效果被掩盖;建议采用高度敏感菌株做实验; 2015年11月8日: 突然想到也许应该用绿色荧光蛋白报告基因来验证可移位性,以及“通读-恢复”模型。 2015年11月19日组会: 赵金乔报告: 如何用本地blast查找移码蛋白的同源序列,研究移码突变在物种和分子进化中的作用。 刘永强 报告 : 对 1个、 2个或3个活性中心分别作图,确实会出现1、2、3个峰值?但方法局限,不能排除是否假象。令其用随机序列做同样的分析,则不出现峰值。 证实活性中心附近的确有HSCs聚集,则说明在移码的蛋白中,HSCs可翻译为活性氨基酸以恢复活性中心,或者是使读码框的修复发生在活性中心之前,以便恢复活性中心。 2015年12月10日组会: 彭海波汇报: 提取移码突变恢复体的基因组DNA,送诺禾致源进行基因组重测序,分析基因组变异情况,发现基因组变异较小,证实移码基因的高变异性 不是全基因组高变异性引起, 确实是针对 移码基因 特异性的修复。 2016年1月6日: 移码型BLA的表达和功能实验一再受挫,考虑原因是诱导性表达问题多多,计划 在pBR322原位 重新合成无终止密码子的移码基因 lba *,组成性表达 移码型 BLA。 2016年1月7日: 和安诺优达技术人员丁原刚和王明探讨可否用单菌落基因组和转录组平行测序来研究移码突变的修复机理。 王明表示不太可行,提示可将多个菌落合并提取mRNA,或许更加科学,可消除“噪音”干扰。 2016年1月8日: 思考mRNA如何参与移码突变基因的修复? mRNA如何转运并发挥作用?是否与DNA杂交,以便定位和识别移码突变的基因? 是先修复mRNA,再修复DNA,还是直接修复DNA,然后再转录出正确的mRNA? 2016年1月11日: 蔡宇佳 完成遗传密码变换程序,计算证明天然密码子表确实移码平均分值排名在6%以内,证实了The natural genetic code is optimized for frameshift tolerating. 2016年1月12日: 彭海波 提取移码突变恢复体的RNA, 做转录组分析,但恢复效率很低,经常长不出来,提取RNA失败。令其研 究文献 Growth phase dependent stop codon readthrough and shift of translation reading frame in Escherichia coli, FEBS Letters 421 (1998) 237-242 确定最佳恢复时机。 2016年1月20日 将论文投稿 Nature Communications 过程中突然想到,和基本粒子一样,遗传密码具有“超对称性”。查文件发现已有此类研究。在对本文进行修改的过程中,拖延时间过长,论文还没提交就被拒稿了。 2016年1月21日 与董主任交流,他又提出了一些问题: 1. 移码型蛋白三维结构模拟; 2.通读并不是常态,而是特殊现象。在需要通读时,可以在一定程度上保持原有基因的功能与活性; 3.比较酵母,古菌遗传密码的移码分值,是否是进化残留,进化依据; 4.比较老虎与人类幽门螺杆菌hp基因组, 比较hiv与siv基因组中gp120, 是否存在证据,frameshift是其实现species jumping的主要手段。 5. 根据共同祖先推断其进化过程。 2016年2月27日 想到应该对 胃癌和胃炎幽门螺杆菌的比较基因组分析, 分析 二者的假基因及移码基因的差异。 2016年3月4日 修改论文,想到应该建立移码突变基因数据库。 2016年3月14日 论文修改完毕,投稿PNAS 2016年3月15日 讲《基因组学》课,想到应该在 UCSC Genome Browser 中建立 Custom Track for Frameshifted proteins. 2016年3月24日 组会: 1、李春燕汇报: 移码BLA蛋白表达,用碘量法检测菌体未检出抗氨苄青霉素活性。采用新配置的氨苄青霉素溶液,可获得稳定的结果。猜测可能存在包涵体或者其他原因导致,建议提取蛋白重新检验 移码BLA蛋白 究竟是否具有 氨苄青霉素 抗 性 。 2、信双晴: 购买了 嗜热栖热菌 Thermus thermophilus HB8 , 培养并 提取基因组DNA准备克隆表达RNA聚合酶; 3、彭海波: 克隆了尿酸氧化酶基因。提取移码恢复菌体RNA一直不成功。 移码恢复菌体制备不顺利,令其先用以前保存的移码突变恢复体提取RNA,测序查找与野生型之间在基因表达上的差异。 4、 赵金乔: 报告尿酸氧化酶分子进化研究进展,人的尿酸氧化酶失活(存疑?),猪的活性较高,但对人有免疫原性,张建业想表达出有活性的、对人又没有免疫原性的 尿酸氧化酶。 5、我想到一些更为普遍的问题: (1)机体如何判断某一蛋白质来自内源还是外源? (2) 抗原决定簇的氨基酸序列有何特征? (3)是否与密码子或密码子对的偏好性有关?或者氨基酸/氨基酸对存在偏好性? (4)氨基酸偏好性的根源是什么?是tRNA丰度,还是其他? 2016年3月31日 组会: 1、王亚蕾汇报PspGI克隆表达进展,拟采用串连法表达PspGI,以克服其毒性。 2、刘永强汇报本地BLASTP搜索移码型蛋白的方案,制订了研究策略: 2016年4月1日: PNAS未送审拒稿。 改投 Genome Res. 2016年4月24日 王旭祥发来一条新闻消息: 美国院士挑战DNA编码规则 2016年3月16日在化学领域顶级期刊《Angewandte Chemie International Ed》发表的一项研究中,来自美国能源部联合基因组研究所(DOEJGI)和耶鲁大学的研究人员发现,微生物可识别一个以上的硒代半胱氨酸的密码子。 揭示了令人吃惊的事实:大肠杆菌中几乎所有的密码子可能被硒代半胱氨酸所取代。 Wikipedia says: Selenocysteine: Although it is found in the three domains of life, it is not universal in all organisms. Unlike other amino acids present in biological proteins , selenocysteine is not coded for directly in the genetic code . Instead, it is encoded in a special way by a UGA codon , which is normally a stop codon . Such a mechanism is called translational recoding and its efficiency depends on the selenoprotein being synthesized and on translation initiation factors . When cells are grown in the absence of selenium, translation of selenoproteins terminates at the UGA codon, resulting in a truncated, nonfunctional enzyme. 这强烈提示selenocysteine与通读有关,并且可能与移码突变基因的修复有关。 刘永强 随即统计了移码前后终止密码子的种类和数目,果然发现 在移码型的基因组中终止密码子 UGA 的含量要远远大于其它两种,然而在野生型的基因组中终止密码子 UAA 的含量要远大于另外两种。野生型中 UAA 的含量高是因为在大肠杆菌之中 UAA 的终止效率最高,远大于 UAG 与 UGA 的终止效率。而在大肠杆菌中终止密码子 UGA 的终止效率最低,常常会被通读而产生能被生物体所识别的硒代半胱氨酸 。恰恰在移码型的基因组中 UGA 的含量非常高,而不是终止效率最高的 UAA ,这说明移码后产生的终止密码子的作用,可能并非和野生型中的终止密码子完全相同,而是可能具有特殊的作用,我们推测这种特性可能有利于通读以及修复移码突变。
3 次阅读|0 个评论
使用DAMBE对蛋白编码基因按密码子位置进行分割
热度 1 Bearjazz 2014-5-7 21:15
使用 DAMBE 对蛋白编码基因按密码子位置进行分割 # 作者信息 熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz # 前言 蛋白质编码基因因为简并密码子的关系,使得三个密码子位置上的碱基进化速率存在差异,尤其是第三位密码子碱基。因此构建系统进化树之前常常需要按照密码子位置对基因进行分割,从而得到包含不同密码子位置碱基的数据集。下面简单介绍如何使用软件 DAMBE 进行分割操作 # 使用方法 首先当然是比对好序列,并通过翻译成蛋白质的方法对基因进行核对 保存比对好的序列之后,导入 DAMBE ,注意选择基因类型和密码子表类型 在 sequences 选项中选择你要提取的序列位置 然后另存为其它文件即可 呵呵,真是不说不知道…… 就这么简单,祝您科研愉快!
个人分类: 我的研究|7828 次阅读|1 个评论
Mega5新功能之基于密码子的基因序列比对
Bearjazz 2011-7-21 21:34
Mega5 新功能之基于密码子的基因序列比对 熊荣川 xiongrongchuan@126.com 在进行功能基因组的分析中,密码子经常作为分析的基本单位。因此,在进行功能基因的序列比对时就不能像非功能基因(如 12S rDNA )以核苷酸为基本的比对单元。从表征上看,功能基因的比对结果应该是( 1 )序列长度应该是 3 的倍数;( 2 )缺口大小也应该是 3 的倍数。 通常来说,功能基因的比对原理是以该基因编码的蛋白质序列为指导模板进行比对,一方面自然满足以上两方面的要求,另外最为重要的是因为蛋白序列由 21 个可能的氨基酸残基组合而成,其比对之后再进行相应的核苷酸序列比对有利于提高“信噪比”。 其实很多软件和网络服务器都提供了这种比对功能(以后我们会逐一介绍),下面就发布不久的 Mega5 软件进行简单的演示。 首先是下载我们所要研究的目标功能基因序列,删除密码子同时检查序列长度是否为 3 的倍数。 Mega5的新功能之基于密码子的基因序列比对.pdf
8690 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 21:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部