2008年~2014年: 在进行密码子-氨基酸联合序列比对(Codon and Amino Acid Unified Sequence Alignment, CAUSA)软件设计和数据分析中,注意到HIV1/SIVCZ/SIVGB 三种病毒的外壳蛋白基因 Env 是完全移码的,然而其蛋白质序列高度同源。非常奇怪,但以为是特殊现象而未重视。 2014年3~5月: 硕士研究生王旭祥在氨苄青霉素抗性基因中引入移码突变后,仍有少数菌落存活,以为是污染了野生型。 但我觉得不是,应该是回复突变株。 经过Sanger测序,发现并非简单的回复突变。并且对恢复菌株进行传代培养,发现抗性恢复是一个渐进的过程,其中的抗性基因是野生型和各种恢复型混杂的状态。 经过比对,发现如果通读,移码突变的蛋白与原蛋白具有很高的同源性。 据此,我提出了一系列的疑问: 1、如何解释移码突变的蛋白与原蛋白具有较高的同源性?这是否具有普遍意义? 2、是否存在转录或翻译水平纠正移码突变的可能?还是移码的蛋白仍然具有一定的功能? 3、密码子的简并性和偏好性是否存在协同作用,共同降低了降低移码突变的危害? 4、用移码产生的密码子和原密码子的氨基酸替换分值,是否高于随机氨基酸替换分值? 5、细菌偏好的密码子是否也是移码突变后和原密码子的氨基酸替换分值高于随机氨基酸替换分值? 6、 去除移码基因的终止密码子是否可以恢复其功能? 7、 如果移码突变的基因缺失可以被定向修复,那么是否意味着移码的/缺损的mRNA可能会被转运回细胞核,指导靶向性的基因修复? 2014年6~10月: 我编写程序对编码基因和密码子表进行分析,并 通过实验和大数据分析,部分回答了这些问题。 1、发现所有生物所有基因的移码 突变的蛋白与原蛋白具有较高(约50%)的同源性; 2、证明了这种同源性主要由密码子表决定,而与序列本身无关。 3、提出了“通读-恢复”模型和“一个基因,三条多肽链”的假说。 4、通过密码子偏好性分析,证明 越常用 的密码子对,其 移码容忍度也越高。 2014年11~12月: 撰写论文。 2015年1~2月: 投稿 Science, Nature Genetics, PLoS Genetics, MBE , 均未经送审即遭拒稿。 2015年1月23日: 我们将论文草稿发表于 PeerJ Preprints . 新的疑问: Are their de novo predicted structure similar? One gene, three isoforms,infinite possibilities. Biological systems are extremely effective, no systematic waste is allowed. There must be a highly effective solution for the frameshift problem. And the frameshifted protein must be useful. Active sites are encoded by either synonymous frameshift substitutions, or hidden stop codons. Does hidden stop codons(HSCs) appears more often nearing the active sites? Does the numbers of HSCs related to the number of active AAs? The others suggestions are always very helpful! Dr. Wenli Li suggested that we should use other genes other than bla, so that the bacteria will not have the problem of surviving . In fact, bla is still beneficial as we can see how the frameshifted gene were repaired with (in ampicillin) and without (in tetracycline) the surviving pressure . If only one frame of the CDSs is used for coding a peptide, and every three base code for only one AA, it is a huge waste of DNA storage. If each frame codes a peptide, the storage effieciency is much higher, and probably reaches the highest upper limit. 2015年3月10日: 撰写、提交国家自然科学基金申请书。 2015年8月18日: 经过不抱太大希望的漫长的等待,基金获批准,评价甚佳,建议中肯,令人欣慰。 有了经费支持,可以深入开展研究了。 2015年9月2日: 市立医院, discussion with Dr. Dong,he thinks that shiftability is relevant to the speciation in bacteria species. I agree. 2015年9月8日: 组会: 1、刘永强通过分析 移码基因中 隐藏的终止密码子(HSCs) 出现位置, 发现 HSCs 大多数是在活性中心的前面,而活性中心后面很少出现终止密码子,这可能是一个重大的发现,可能证实了 HSCs 就是启动移码基因读码框修复的信号:如果HSCs出现在 活性中心 后面,那么 活性中心前面的发生移码突变无法被 修复;而 如果HSCs出现在 活性中心前面 ,那么 活性中心前面的发生移码突变可以被 修复;而 活性中心后面发生的移码突变无需 修复,因为可移位性保证了移码之后的蛋白质序列与原蛋白高度同源,只要活性中心不变,该蛋白极有可能保持原有活性。 2、赵金乔提出不同的终止密码子终止效率不同,是否和通读效率有关? 三个终止密码子也许不会同时通读,哪个通读,哪个不通读,是否有规律可循?(见后:这个问题放了很久,直到2016年4月才引起重视) 2015年9月15日 组会: 给新来的研究生和SRDP本科生讲述研究进展,总结和布置下一步工作。 Finished works: 1 、 提取移码恢复细菌质粒 DNA , 做 一 代 测序,检测氨苄青霉素抗性基因的变异情况 。 2 、 主要模式生物野生型和移码型蛋白质序列的比对分析,计算野生型蛋白与移码型蛋白之间的相似性及蛋白质编码基因的可移位性; 3 、 天然 密码表密码子移码替换的氨基酸替换分值的计算分析,通过计算密码子随机替换、摆动和移码替换的氨基酸替换分值的分析,分析天然密码子容忍移码突变的特性 ; 4 、密码子和密码子对偏好性分析。 Future wet-lab experiments 移码突变 读码框恢复的分子机理 研究 : 1 、 表达 出移码型的 蛋白 : 检测 移码型的蛋白是否有功能,证明终止密码子是启动读码框修复的信号。 2 、 检测 移码 基因的 读码框恢复过程 : 提取移码 突变 恢复 细菌质粒 DNA 三代测序。 3 、 检测细菌基因组的变异情况 : 分别 提取正常和移码恢复细菌基因组 DNA 二 代测序(重 测序 ) 。 4 、 检测细菌 转录 组 的变异情况 : 分别 提取正常和移码恢复细菌 基因组 RNA 二代测序 ( 表达谱) 。 5 、 检测 细菌 蛋白质组学 的 表达 情况 : 分别 提取正常和移码恢复 细菌 蛋白质 蛋白质组学分析 。 6 、基因 功能验证试验 : 找到移码基因修复相关的蛋白和基因 基因敲除、 RT-PCR , Northern, Western, ELISA, 等等。 7、用移码突变进行体外分子进化: Future bioinformatics (dry-lab) works 1 、 移码基因中终止密码子位置和数 量分析; 2 、 对 天然密码表进行 变换 : 生成 各种可能的遗传密码表 ,计算 他们的 密码子 随机替换、摆动和移码替换的氨基酸替换分值的分析,比较天然密码表与各种可能密码表容忍移码突变的特性之差异 ;及其对基因组中编码基因的可移位性的影响。 3 、 基因组大数据 生物信息学 分析: 找到生物体中存在的有功能的移码突变基因,阐明其在物种分化和演化中的作用; 4 、 转录组大数据 生物 信息学分析: 找到 生物体中存在的有功能的移码突变基因 , 以及可变剪切体 ,阐明其与可移位性的关系。 5、癌细胞转录组和蛋白质谱分析: 癌细胞是否失去了移码突变修复能力?这是不是细胞癌变的原因之一? Related works: 1、密码子偏好性/氨基酸成分比例是否可以作为物种鉴定的依据? 2、为何对上游基因进行移码可增加下游基因表达? 2015年9月23日~9月29日: 赴日本姬路市参加第42届核酸化学国际会议,报告了PEAR制备寡核苷酸研究,反响甚佳。特别 爱提问的 CR,Pearson问到:PEAR如果用有链置换活性的聚合酶,对PEAR有何影响。吾答曰:我们在PEAR中使用的是高保真DNA聚合酶,没有链置换活性。有链置换活性的DNA聚合酶大多不耐热,不可用于PEAR。而即便有链置换活性的高度 耐热 DNA聚合酶,也对PEAR反应没有什么贡献。因为PEAR反应依靠的是热变形和复性驱动的“ 滑动-切割机制 ”,使其扩增特异性较高,产物纯净。 CR,Pearson本人报告了G四连体的研究。G四连体可扩增导致疾病。其原因可能是引起了一些蛋白基因表达翻译起始位点改变,表达出移码的蛋白。 在会间与CR,Pearson讨论了我们发现的密码子可移位性,询问了他们如何检测出移码的蛋白,答曰采用质谱分析。而后又发现Herve最新发表的论文也采用了 质谱分析 检测出移码的蛋白 ,颇有启示,指明了下一步分析移码型蛋白质的实验技术路线 。 2015年10月8日: 找市立医院董主任探讨了一下午,有诸多收获: 1、王亚蕾表达成功移码型蛋白,但检测表达菌株无抗性,遗憾之余,和董全江主任探讨,他指出可能是抗生素浓度太高,应做MIC分析,找到合适的抗生素浓度,恍然大悟! 2、刘永强,进一步分析表明约70%的E. coli蛋白质编码基因均符合此前发现的规律: 移码后 隐藏的终止密码子(HSCs) 出现位置 大多数是在活性中心前面,而活性中心后面很少出现终止密码子,又一惊喜! 3、我阐述了 癌细胞是否失去了移码突变修复能力?这是不是细胞癌变的原因之一?可用质谱检测分析,董主任表示很有可能,并愿提供样品,真是太好啦! 4、董进一步询问了移码基因修复分子机制研究的思路,以及为何我认为HSCs是启动修复的信号,我用“修补马路”做比方 进行了详细阐述 :马路上有一个坑,我们会越过,但若有很多坑,我们必定会发出信号(打电话),召集修复机构 (叫来马路维修工人) ,启动修复过程。但诸多细节尚需实验探索证实。 5、董进一步阐述了他认为移码突变可能导致新物种产生的观点,我深表同意,并指出HIV/SIV外壳蛋白就是一个很好的实例。董的观点将密码子可移位性研究由基因水平提升到了物种水平,真是天作之合!我们进一步明确了下一步研究方案:用BLAST查找不同物种中的移码基因,尤其是老虎和人类幽门螺杆菌基因组分析,值得深入。而且移码突变可能成为合成生物学中人工构造新物种的方法,真实越来越有趣了! 2015年10月28日组会: 1、王亚蕾MIC实验结果一波三折:第一次实验测定出携带移码突变的 bla 基因的大肠杆菌的MIC为4ug/mL,但未设对照组。第二次做了对照组(空质粒) 的大肠杆菌的MIC为2ug/mL,二者有差异但只相差一倍,不太可靠。令其重复实验,然而第三次二者没有差异,分析可能是因为未加入诱导剂,基因不表达。第四次令其 做3组:1组空质粒,另外2、3两组都是带移码突变的amp基因质粒,1、2组加诱导剂,3组不加。结果不稳定,令人失望。 2、刘永强的分析结果发现有误:虽然 约70%的E. coli蛋白质编码基因 移码后 隐藏的终止密码子(HSCs) 出现位置 大多数是在活性中心前面,而活性中心后面很少出现终止密码子,但活性中心本身也大多数是在基因后面。活性中心前后HSCs的密度并无明显差异。 如果 活性中心果真大多数是在基因后面,也是有意义的,但每个基因有多个活性中心,有些在前面,有些在后面,因此 因此次分析结果意义并不像他想的那么大。但至少也证明了HSCs并不是均匀分布的。 2015年11月5日组会: I、 刘永强: 分析结果证实了移码后的终止密码子(HSCs)在活性中心所在的位置出现峰值。 赵金乔提问: (1)分析中 移码是人为的而不是真实存在的, 移码的基因并不一定存活,该分析有何意义? ( 2) 移码的基因活性中心位置改变, 终止密码子(HSCs)在活性中心所在的位置出现峰值有何意义? 李春燕提问: 活性中心两侧也有不少HSCs,为什么? 我回答: (1)根据可移位性理论,预计HSCs可通读并转变为活性中心,则在活性中心位置应该出现HSCs高峰,这是必要而非充分条件; (2) 虽然 移码的基因活性中心位置改变,但新的位置有的在前面,有的在后面,因此 终止密码子(HSCs)的峰值依然会出现在在活性中心所在的位置。 我的问题: 长的基因较少,短的基因较多, 基因长度是否有影响?建议将位置用长度标准化后作图。 彭海波提问: 两个或多个活性中心如何考虑? 张建业建议: 一个、 两个或多个活性中心分别作图,是否会出现1、2、多个峰值? II、 王亚蕾: 1、MIC实验: 结果继续一波三折: 第四次 做3组:1组空质粒,另外2、3两组都是带移码突变的amp基因质粒,1、2组加诱导剂,3组不加。重复三次,结果: 1次无差异, 2次有差异,但差异较小;怀疑为假阳性;再次重复实验,结果居然与预期相反。 2、碘量实验: 结果与预期相反,怀疑加错样。再次实验,实验组结果与预期相符,诱导组褪色而未诱导组未褪色,但阳性对照未褪色。 3、刘恺提出: 是否所用菌株自身有一定的抗性,导致效果被掩盖;建议采用高度敏感菌株做实验; 2015年11月8日: 突然想到也许应该用绿色荧光蛋白报告基因来验证可移位性,以及“通读-恢复”模型。 2015年11月19日组会: 赵金乔报告: 如何用本地blast查找移码蛋白的同源序列,研究移码突变在物种和分子进化中的作用。 刘永强 报告 : 对 1个、 2个或3个活性中心分别作图,确实会出现1、2、3个峰值?但方法局限,不能排除是否假象。令其用随机序列做同样的分析,则不出现峰值。 证实活性中心附近的确有HSCs聚集,则说明在移码的蛋白中,HSCs可翻译为活性氨基酸以恢复活性中心,或者是使读码框的修复发生在活性中心之前,以便恢复活性中心。 2015年12月10日组会: 彭海波汇报: 提取移码突变恢复体的基因组DNA,送诺禾致源进行基因组重测序,分析基因组变异情况,发现基因组变异较小,证实移码基因的高变异性 不是全基因组高变异性引起, 确实是针对 移码基因 特异性的修复。 2016年1月6日: 移码型BLA的表达和功能实验一再受挫,考虑原因是诱导性表达问题多多,计划 在pBR322原位 重新合成无终止密码子的移码基因 lba *,组成性表达 移码型 BLA。 2016年1月7日: 和安诺优达技术人员丁原刚和王明探讨可否用单菌落基因组和转录组平行测序来研究移码突变的修复机理。 王明表示不太可行,提示可将多个菌落合并提取mRNA,或许更加科学,可消除“噪音”干扰。 2016年1月8日: 思考mRNA如何参与移码突变基因的修复? mRNA如何转运并发挥作用?是否与DNA杂交,以便定位和识别移码突变的基因? 是先修复mRNA,再修复DNA,还是直接修复DNA,然后再转录出正确的mRNA? 2016年1月11日: 蔡宇佳 完成遗传密码变换程序,计算证明天然密码子表确实移码平均分值排名在6%以内,证实了The natural genetic code is optimized for frameshift tolerating. 2016年1月12日: 彭海波 提取移码突变恢复体的RNA, 做转录组分析,但恢复效率很低,经常长不出来,提取RNA失败。令其研 究文献 Growth phase dependent stop codon readthrough and shift of translation reading frame in Escherichia coli, FEBS Letters 421 (1998) 237-242 确定最佳恢复时机。 2016年1月20日 将论文投稿 Nature Communications 过程中突然想到,和基本粒子一样,遗传密码具有“超对称性”。查文件发现已有此类研究。在对本文进行修改的过程中,拖延时间过长,论文还没提交就被拒稿了。 2016年1月21日 与董主任交流,他又提出了一些问题: 1. 移码型蛋白三维结构模拟; 2.通读并不是常态,而是特殊现象。在需要通读时,可以在一定程度上保持原有基因的功能与活性; 3.比较酵母,古菌遗传密码的移码分值,是否是进化残留,进化依据; 4.比较老虎与人类幽门螺杆菌hp基因组, 比较hiv与siv基因组中gp120, 是否存在证据,frameshift是其实现species jumping的主要手段。 5. 根据共同祖先推断其进化过程。 2016年2月27日 想到应该对 胃癌和胃炎幽门螺杆菌的比较基因组分析, 分析 二者的假基因及移码基因的差异。 2016年3月4日 修改论文,想到应该建立移码突变基因数据库。 2016年3月14日 论文修改完毕,投稿PNAS 2016年3月15日 讲《基因组学》课,想到应该在 UCSC Genome Browser 中建立 Custom Track for Frameshifted proteins. 2016年3月24日 组会: 1、李春燕汇报: 移码BLA蛋白表达,用碘量法检测菌体未检出抗氨苄青霉素活性。采用新配置的氨苄青霉素溶液,可获得稳定的结果。猜测可能存在包涵体或者其他原因导致,建议提取蛋白重新检验 移码BLA蛋白 究竟是否具有 氨苄青霉素 抗 性 。 2、信双晴: 购买了 嗜热栖热菌 Thermus thermophilus HB8 , 培养并 提取基因组DNA准备克隆表达RNA聚合酶; 3、彭海波: 克隆了尿酸氧化酶基因。提取移码恢复菌体RNA一直不成功。 移码恢复菌体制备不顺利,令其先用以前保存的移码突变恢复体提取RNA,测序查找与野生型之间在基因表达上的差异。 4、 赵金乔: 报告尿酸氧化酶分子进化研究进展,人的尿酸氧化酶失活(存疑?),猪的活性较高,但对人有免疫原性,张建业想表达出有活性的、对人又没有免疫原性的 尿酸氧化酶。 5、我想到一些更为普遍的问题: (1)机体如何判断某一蛋白质来自内源还是外源? (2) 抗原决定簇的氨基酸序列有何特征? (3)是否与密码子或密码子对的偏好性有关?或者氨基酸/氨基酸对存在偏好性? (4)氨基酸偏好性的根源是什么?是tRNA丰度,还是其他? 2016年3月31日 组会: 1、王亚蕾汇报PspGI克隆表达进展,拟采用串连法表达PspGI,以克服其毒性。 2、刘永强汇报本地BLASTP搜索移码型蛋白的方案,制订了研究策略: 2016年4月1日: PNAS未送审拒稿。 改投 Genome Res. 2016年4月24日 王旭祥发来一条新闻消息: 美国院士挑战DNA编码规则 2016年3月16日在化学领域顶级期刊《Angewandte Chemie International Ed》发表的一项研究中,来自美国能源部联合基因组研究所(DOEJGI)和耶鲁大学的研究人员发现,微生物可识别一个以上的硒代半胱氨酸的密码子。 揭示了令人吃惊的事实:大肠杆菌中几乎所有的密码子可能被硒代半胱氨酸所取代。 Wikipedia says: Selenocysteine: Although it is found in the three domains of life, it is not universal in all organisms. Unlike other amino acids present in biological proteins , selenocysteine is not coded for directly in the genetic code . Instead, it is encoded in a special way by a UGA codon , which is normally a stop codon . Such a mechanism is called translational recoding and its efficiency depends on the selenoprotein being synthesized and on translation initiation factors . When cells are grown in the absence of selenium, translation of selenoproteins terminates at the UGA codon, resulting in a truncated, nonfunctional enzyme. 这强烈提示selenocysteine与通读有关,并且可能与移码突变基因的修复有关。 刘永强 随即统计了移码前后终止密码子的种类和数目,果然发现 在移码型的基因组中终止密码子 UGA 的含量要远远大于其它两种,然而在野生型的基因组中终止密码子 UAA 的含量要远大于另外两种。野生型中 UAA 的含量高是因为在大肠杆菌之中 UAA 的终止效率最高,远大于 UAG 与 UGA 的终止效率。而在大肠杆菌中终止密码子 UGA 的终止效率最低,常常会被通读而产生能被生物体所识别的硒代半胱氨酸 。恰恰在移码型的基因组中 UGA 的含量非常高,而不是终止效率最高的 UAA ,这说明移码后产生的终止密码子的作用,可能并非和野生型中的终止密码子完全相同,而是可能具有特殊的作用,我们推测这种特性可能有利于通读以及修复移码突变。