科学网

 找回密码
  注册

tag 标签: 嵌合体

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

嵌合体的研究文章总结
xbinbzy 2016-1-19 10:21
CATCh, an ensemble classifier for chimera detection in 16S rRNA sequencing studies 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25527546 )
个人分类: 工具mothur|2027 次阅读|0 个评论
嵌合体检测工具-UCHIME的原理解读
热度 1 xbinbzy 2015-12-24 10:51
文章: UCHIME improves sensitivity and speed of chimera detection 嵌合体产生的原因,主要是PCR的过程: The most common mechanism is incomplete template extension, when a partially extended sequence from one sequence reanneals to another parent in the next cycle of PCR. This problem is particularly acute in population studies that sequencea single region, such as the bacterial 16S ribosomal RNA gene(16S) or the fungal Internal Transcribed Spacer (ITS) region. 嵌合体的种类一般有: While chimeras with two segments ( bimeras ) are most common, chimeras with 2 segments ( multimeras ) may form at comparable rates and account for a significant fraction of the unique sequencesin an amplified sample. 嵌合体检测的工具有: CHIMERA_CHECK、 Pintail、 Mallard、 Bellerophon、 ChimeraSlayer. 各自检测的原理如下, Pintail and Mallard are 16S-specific programs that use a reference database of trusted chimera-free reference sequences. The query sequence is aligned to all( Pintail ) or all pairs ( Mallard ) of reference sequences. Evolutionary distance is computed in a sliding window across the query sequenceand variations in distance are compared with the known ratevariability in the 16S gene, with larger variations indicating achimera. ChimeraChecker is an ITS-specific method using BLAST to search a reference database for taxonomic anomalies. ChimeraSlayer searches a multiple alignment of chimera-free reference sequences and constructs three-way alignments with candidate parents. Perseus is designed todetect chimeras in 454 pyrosequencing reads that have been filtered by the AmpliconNoise algorithm . Assuming that a chimera has undergone fewer rounds of amplification than its parents, the query is compared with all pairs of sequences having higher abundance. 方法主要分两类:基于reference database的检测,基于 de novo 策略的检测。 UCHIME的检测包含两种模式, UCHIME can use a trusted reference database of non-chimeric sequences (like ChimeraSlayer) and also offers a de novo mode (like Perseus). UCHIME基于reference database的检测策略,主要原理如下图: 此算法主要分为以下几步, 1) The query sequence is divided into four non-overlapping segments ( chunks ), each of which is used to search a reference database, which is assumed to be chimera free. (将query sequence拆分成不存在overlap的chunks,然后比对数据库) 2) The best matches to each chunk are noted, and the two best candidate parents are identified from matches to all chunks. (选取每个chunk在数据库中最好的match,最终选择两条最好的parents序列) 3) A three-way multiple alignmentof the query to these two candidates is constructed. 4) If a pair of segments extracted from these two candidates has identity ≥ 0 . 8% closer to the query sequence than either candidate alone, a score is computed from the alignment and a chimera is reported if the score exceeds a predetermined threshold. 其中 ,UCHIME selects the best two candidates according to the following procedure,对于选择最好的parents,操作如下: A pair-wise alignment is computed between the query Q and each candidate parent P. The identity between P and Q is smoothed over a window(default size 32). For each position in Q, the highest value for the smoothed identity among the parents is recorded. The best candidate is then identifiedas the one with most positions having highest smoothed identity. 对于three-way的alignment,比对会出现local、local-X和global-X,三种情况如下: 这三种情况的操作如下:(i) searching for global-X alignments, as fewer global-X alignments usuallyexist compared with local or local-X; (ii) examining only two candidateparents; and (iii) discarding models having distance to the closest parent(divergence) 0.8%.最终会形成如下比对结果: 根据此比对结果进行score值计算,分值计算公式如下: h是界限值, g可以表示L(left)或者R(right),Let Yg, Ng and Ag be the total numberof yes, no and abstain votes in segment g of the model.最终依据此分值去判段序列是不是嵌合体序列。 UCHIME基于de novo的检测策略,主要原理如下: sequences are considered in the order of decreasing abundance,and candidate parents must have abundance at least 2 × that of the query sequence, assuming chimeras are less abundant than their parents because they undergo fewer rounds of amplification. 主要操作是 Candidate parents are required to have abundance at least λ times that of the query sequence, on the assumption that a chimera has undergone fewer rounds of amplification and will therefore be less abundant than its parents. The parameter λ is called the abundance skew , and by default λ = 2,assuming at least one more round of amplification for the parents. 主要是通过量上的变化来进行检测。 UCHIME的最终检测效果如下: UCHIME检测的敏感性相较其他数据较好,速度更快! 参考文章: http://www.ncbi.nlm.nih.gov/pubmed/21700674
个人分类: 科研文章|11401 次阅读|8 个评论
16s rRNA sequencing中chimera的检测
xbinbzy 2015-10-29 10:42
在16s rRNA的分析中,在数据处理过程中重要的一步操作是鉴定和去除嵌合体。 嵌合体(chimera)产生的原因主要是PCR过程中产生的错误: During this PCR amplification,chimeras might be created due to incomplete extension. 在扩增过程中,chimera的比例可能会达到70% : Likewise, the percentage of chimeric se-quences in the unique amplicon pool of PCR-amplified samplesmight reach values higher than 70%。( 实验过程的优化中,考虑减少嵌合体的产生 )。 嵌合体的处理策略,主要可分 为 reference-based和 de novo 两种。 reference-based的原理是 Reference-based methods basically screen the sequences poten-tially containing chimeras against a curated reference databasewith chimera-free sequences. 工具有 Pintai l 、 Bellerophon 。在这基础上 ChimeraSlayer 实现了较大的改动和性能优化, ChimeraSlayer的基本原理是 which uses 30% of each end as a seed forsearching a reference data set, finding the closest parent (if any),performing alignments, and scoring to the candidate parents. 它的缺点在于 it was not able to detect chimeras with a smallchimeric range. 在 ChimeraSlayer的基础 上, reference-based UCHIME 表现性能更好,In reference-based UCHIME, query sequences are divided into four nonoverlapping segments andsearched against a reference database. 有研究报道,ChimeraSlayer and reference-based UCHIME在长reads中具备短chimeric的时候效果不如DECIPHER,were reported to have a lower accuracy than that of DECIPHER in cases where the algorithms were challenged with a data set con-taining chimeric sequences with a short chimeric range and longsequence lengths. DECIPHER的原理是The DECIPHER algorithm is a search-based algorithm that splits the query sequence into different fragmentsand analyzes whether those fragments are uncommon in the ref-erence phylogenetic group where the query sequence is classified. If a significant amount of fragments is assigned to a phylogeneticgroup different from the complete query sequence, the sequence isclassified as chimeric. 实际上,chimera检测工具的性能评估很难做到公平统一,各工具有各自的适应范围。 De novo 策略的原理是 De novo methodologies are generally based on the fact thatparents of any chimeric sequence have gone through at least onemore PCR cycle than chimeric sequences. 工具有 Perseu s 、 de novo UCHIME 、 de novo ChimeraSlayer ,这些工具目前都已整合到了mothur中。 近来 the UPARSE pipeline was released, combining in one step chimera detection with clus-tering of sequencing reads into operational taxonomic units. reference-based和 de novo 两种策略各自具有优缺点:1)reference-based的优势在于 In situations dealing with well-studied environments, the reference-based approaches werefound to be very effective in distinguishing between chimeras andchimera-free (parent) sequences . 2)reference-based的劣势在于 efficiency is assumed to belower when dealing with less well-known environments.而这正好是 de novo 方法的优势所在。3) de novo 方法的劣势在于 most of the de novo approaches depend on redundancy differences between chimeras and parents, assuming that the number of parentsequences has to be at least one time more redundant than theircorresponding chimeric sequences. This requires data abundances to have been reported with high accuracy. (这个就涉及到多少数据量是能保证效果的) 15年CATCh(Combining Algorithms to Track Chimeras)出现,其原理在于利用其他chimera的检测工具作为input,利用有监督的学习方法去进行分类模型构建,利用测试集验证分类模型的准确度,最终确定分类模型来鉴定嵌合体: which is able to discriminate betweenchimeric and nonchimeric sequences based on a specific set ofinput data (called features in the context of machine learning).在此工具中,输入数据不是测序reads,而是不同工具鉴定chimera的结果。 With this tool, we use as input data not the sequence read charac-teristics but rather the results (e.g., scores) of different individual chimera detection tools mentioned above and integrate them intoone prediction. All different tools are run separately, and theiroutput values are combined and processed by the classifier in or-der to give a prediction of whether a read is a chimera or not. 此工具在处理时,主要分为3个步骤:(1) the necessary input features (i.e., output values of the different chimeradetection tools) are identified. (2) the classifier istrained via a supervised learning approach. In this step, the classifier learns to make a correct prediction based on example input data; in our case, training data consist of the output features of a set of sequences reads obtained from different chimera detection tools, together with their correct classification (i.e., whether thisread is a chimeric sequence or not). (3) In the third step, the trained classifier can be used to predict chimeric sequences in new, previously unseen data (i.e., data that did not belong to the training data). By feeding the outputs of the different individual chimeradetection tools into the classifier, CATCh is able to classify them into chimeric and chimera-free subsets. As two different types ofchimera detection tools exist, either reference based or de novo , wealso developed two different versions of CATCh. In order to illus-trate its performance, CATCh (reference based as well as de novo )was benchmarked against other chimera detection tools using var-ious publicly available benchmark data. ( 利用其他工具的检测结果作为输入数据,不同工具的结果出现不一致的情况时,对模型结果是否存在影响 ) 参考文献: Mysara M, Saeys Y, Leys N et al. CATCh, an ensemble classifier for chimera detection in 16S rRNA sequencing studies. 2015, 81(5):1573-84. doi: 10.1128/AEM.02896-14
个人分类: 科研文章|7544 次阅读|0 个评论
美国 - 文化嵌合体
benlion 2012-6-7 11:19
- 经济学论衡 - 希腊、波斯、印度到中国的长条区域发祥了人类轴心文化。 俄罗斯起源于元代 ( 1271 年 ~1368 年 ) 的罗斯国家,南美融合了罗曼与印第安民族,澳洲和加拿大属于英皇室领地。 美国走向以英国、德国、法国和意大利移民为主流民族的国家。 联合国的纽约总部和瑞士驻地,意大利的宗教、英国的法制和德国的制造、法国的时尚综合构成了美国的现代商权文明模式 – 融合科学与艺术的典范是苹果公司。 微电子技术发展的顶峰是计算机和 IT 产业,生物计算机和工程生物系统企图突破人工机器硅元件技术的发展瓶颈。 未来工业和经济创新的全球领袖仍然是美国吗? 也就是说第 3 次产业革命是否会在美国发生,日本和中国将扮演何种角色。
2014 次阅读|0 个评论
一项影响深远的改进技术:小谈发育遗传学中的MARCM技术
热度 1 tianyizhang6 2010-10-25 10:23
简要:使用 MARCM 技术可以在果蝇活体内正向标记基因突变的细胞( positively labeling mutant cells )。它基于两项已有的技术: FLP/FRT 和 UAS/Gal4/Gal80 。 MARCM 技术自 1999 年问世以来,在果蝇神经发育生物学领域起到了举足轻重的作用。这是两位华人科学家 Tzumin Lee 与 Liqun Luo 的杰作。 现代的遗传发育学领域虽然五花八门,有些令人眼花缭乱,但基本的指导思想也很简单:在活体动物里增加、减少、或敲除一个或多个基因,继而研究这些基因在体内的生理功能。所以遗传发育学的基本工具分为两大类:一类是让基因表达量提高,另一类是让基因表达量降低或消失。 大部分有重要功能的基因,无论是提高表达,还是敲除,都会导致胚胎期致死。对于关注胚胎后发育的研究者来说,这是一个必须解决的问题。这个问题的解决办法就是制造嵌合体( mosaic clone )。嵌合体指的是,在生物体中,大部分细胞是正常细胞,个体可以基本正常生长发育,而只有体内的一部分细胞的基因被改变,或者升高,或者降低。这些被改变的细胞群,就称为嵌合体。 在果蝇研究中,如果想在嵌合体中增加基因表达,用 UAS/Gal4 系统;如果想在嵌合体中敲除基因,用 FLP/FRT 系统。 UAS/Gal4 在 UAS/Gal4 系统中, Gal4 是来源于酵母的转录因子,而 UAS 则是其结合调控的 DNA 序列。因为果蝇基因组不编码 Gal4 转录因子,所以在果蝇体内过量表达 Gal4 ,不会对果蝇发育产生显著影响。同理,在果蝇体内插入 UAS-gene ( UAS 下游连接着一个待表达的基因)片段,也不会对果蝇产生影响,因为野生型的果蝇没有 Gal4 转录因子,不能激活 UAS 。所以,单独含有 Gal4 或者 UAS-gene 的果蝇是发育正常的。但如果让这两个果蝇杂交,产生的后代的基因组中同时含有 Gal4 和 UAS-gene ,这样,在 Gal4 的调节之下,这个 gene 的表达量就会提高 (如下图)。 http://www.clas.ufl.edu/jur/200312/papers/paper_lanata.html 这个 gene 在哪里表达,在什么时候表达,表达多少,要取决于 Gal4 的表达水平和时空特性。 Gal4 的表达水平可以通过不同的增强子来调节。在果蝇研究过程中,研究者收集了很多增强子 -Gal4 ,可以让其在某个器官里表达,在某一群特定的细胞里表达,也可以在一个特定的细胞里表达。 Gal80 也是来源于酵母的一个蛋白,它可以抑制 Gal4 的活性。 Gal80 与 Gal4 相比,被利用的频率要低得多,但有时候会很有用。以下要描述的 MARCM 技术,就是妙用了 Gal80 。 FLP/FRT UAS/Gal4 这个来源于酵母的系统可以特异地提高果蝇的基因在体内的表达量,在嵌合体细胞内敲除某个基因的 FLP/FRT 技术也是来源于酵母。 果蝇有分裂能力的细胞都是双倍体细胞,含有四对染色体,每对染色体中的一条被称为同源染色体,分别来自于母本和父本,它们的基因背景是不一样的。在正常的细胞分裂中,果蝇的一对同源染色体总是能忠诚地复制,然后分配到新分裂的细胞中(如下图)。 FLP 是一个来自酵母的染色体重组酶,而 FRT 则是 FLP 催化的一段 DNA 序列。如果把 FLP 和 FRT 通过转基因导入果蝇基因组中,在 FLP 的催化下,含有 FRT 序列的同源染色体会在细胞分裂过程中产生重组。同源染色体重组的结果是:两个后代细胞含有一段只来自于母本或父本的染色体(如下图,比较红圈部分),而不像其他为重组的细胞,一边来自母本,另一边来自父本(如上图)。 这种同源染色体重组有什么用呢?用处大得很!如果两条染色体中的一条是正常的,而另一条染色体上的感兴趣基因被突变掉,那么对于绝大部分没有重组的细胞来说,它们是杂合体。这些杂合体细胞在绝大部分情况下是正常的,所以果蝇也是基本正常的。对于那些发生同源染色体重组的细胞来说,它产生的两个子细胞中,一个含有双份正常染色体的细胞,而令一个则是含有双份突变染色体的细胞。如果我们在正常染色体上添加标示(例如眼睛颜色,或者 GFP ),那么,可以在果蝇器官或组织中观察突变细胞的表型变化(如下图,在果蝇幼虫期眼睛皮层中,有 GFP 的为正常细胞,没有 GFP 的为突变细胞)。 Wu et al., 2003 MARCM Gal4/UAS 可以让基因升, FLP/FRT 可以让基因降,而且可以选择性地在特定的细胞里做这些操作。这两个一阴一阳的技术让果蝇遗传学变得很潇洒。但这里面还有一朵小黑云,那就是 FLP/FRT 只局限于在二维的皮层细胞里操作。因为这项技术所标记的细胞是正常细胞,而突变细胞没有标记,如果想看清楚突变细胞,需要组织器官里的细胞很有规律地排列。对于那些具有复杂细胞形态的组织,例如神经组织,我们很难在众多的表达 GFP 的正常细胞中分辨出那些突变的细胞。 这个问题可能最先由做果蝇神经生物学的人提出来,也由他们来回答了。 Tzumin Lee 与 Liqun Luo 在 1999 年发表了一篇文章,介绍一种可以用 GFP 标记突变细胞的方法,称为 MARCM ( mosaic analysis with a repressible cell marker )。这个名字表达了两个含义: 1 )这是一项基于 FLP/FRT 的嵌合体技术( mosaic analysis ); 2 )标记嵌合体细胞的方法有些特别,因为用的是 a repressible cell marker 。 MARCM 的原理图如下: http:// www.nature.com/nprot/journal/v1/n6/full/nprot.2006.320.html 如上 1) 所说, MARCM 技术包含 FLP/FRT ,通过同源重组,产生嵌合细胞。为了正向而不是反向标记这些细胞,他们在感兴趣的正常染色体上插入 Gal80 ,同时,在其他区域插入 Gal4/UAS-GFP 。在正常细胞中, Gal80/Gal4/UAS-GFP 在一起,细胞不表达 GFP 。但一旦 FLP/FRT 产生嵌合体细胞,有一个细胞含有两份 Gal80 ,不会表达 GFP ,这是正常细胞;另一个没有 Gal80 ,表达 GFP ,是感兴趣的嵌合体细胞。如果在不含 Gal80 的染色体上引入突变(如上图中的星号),那么 MARCM 技术就能让突变细胞表达 GFP ,而其余正常细胞则没有 GFP 。下图是他们把 MARCM 技术用于神经系统的一个例子: Lee and Luo, 1999 左边为正常神经细胞,右边为突变细胞。 上图显示,正常神经元与突变神经元表现出来的形态很不一样。有了这项技术,可以深入研究基因如何调控神经元存活、形态变化、迁移等等重要的问题。 MARCM 技术不但在基因 - 神经元领域打开了新天地,它也给做其他方向的人提供了一种选择。除了正向标记突变细胞,还可以利用 MARCM 技术在突变细胞里同时表达别的基因,把 loss-of-function 与 gain-of-function 很好地结合起来。这样的例子很多,其中的一个有趣的例子是用于癌基因的研究。 癌基因大概分为两大类:原癌基因( proto-oncogene )和抑癌基因( tumor suppressor )。在癌细胞中,前者活性上升,后者降低。癌症被认为是多个癌基因突变诱发的。 Ras 是一个重要的原癌基因,而 scrib 则是一个抑癌基因。只让 Ras 的表达量升高(下图中左),与正常对照相比(下图左),细胞多了一点;只让 scrib 突变,细胞数目反而有所下降,因为 scrib 突变会导致细胞死亡(下图中右);但如果 Ras 上升 +scrib 突变,细胞数目增加,并且从原来的位置迁移到了其他地方(下图右)。这是利用果蝇研究癌基因的一个成功的例子。 Pagliarini and Xu, 2003 Lee Luo 发明的这项 MARCM 技术综合了两个已有的技术,是站在巨人肩膀上的一个进步。但这项其貌不扬的技术产生了很大的能量,让果蝇领域以及神经发育领域的人多了一个很有力的工具,可以回答很多以前不能回答的问题。 Luo 实验室还把 MARCM 技术推广到了小鼠。但小鼠的遗传学工具与果蝇有很大差别,要把小鼠 MARCM 做得随心所欲,还有很多技术问题需要解决。 在做这个工作的时候, Lee 是博士后, Luo 刚刚当上老板。他们现在都是响当当的人物,大家感兴趣可以搜一下,第一个结果肯定是你想要的。
个人分类: 分子遗传|27668 次阅读|11 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 02:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部