科学网

 找回密码
  注册

tag 标签: sequence

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

序列多重比对工具:MUSCLE
vesperlight 2017-8-15 09:27
Muscle MUSCLE是RC Edgar开发的序列多重比对(Multiple Sequence Alignment,MSA)工具 下载和相关说明地址为http://www.drive5.com/muscle/manual/ 1、比对并保存比对结果为Fasta格式文件 muscle -in seqs.fa -out seqs.afa 对于大数据集可以使用 muscle -in seqs.fa -out seqs.afa -maxiters 2 MUSCLE默认使用高准确度的比对方式,若需要更快但精度较低的方法可以使用: 用于氨基酸序列比对 muscle -in seqs.fa -out seqs.afa -maxiters 1 -diags -sv -distance1 kbit20_3 用于核算序列比对 muscle -in seqs.fa -out seqs.afa -maxiters 1 -diags 2、将比对结果转换为CLUSTALW格式的文件 muscle -in seqs.fa -clw 参数 -in 输入文件必须为fasta格式,如果序列中存在gaps,gaps将会被丢弃 -out 输出文件 3、根据多重比对结果构建UPGMA树 muscle -maketree -in seqs.afa -out seqs.phy 4、根据多重比对结果构建NJ(Neighbor-Joining)树 muscle -maketree -in seqs.afa -out seqs.phy -cluster neighborjoining 5、对已有比对结果加入新的序列 已有一个msa结果,想加入一条新的序列 muscle -profile -in1 existing_msa.afa -in2 new_seq.fa -out combined.afa 6、如果序列有多条,则先对需要加入的序列进行多重比对,然后对两个多重比对结果进行比对(同下) muscle -in new_seqs.fa -out new_seqs.afa muscle -profile -in1 existing_aln.afa -in2 new_seqs.afa -out combined.afas 7、两个比对结果进行比对 muscle -profile -in1 one.afa -in2 two.afa -out both.afa 8、提炼已有MSA muscle -in msa.afa -out refined_msa.afa -refine
个人分类: 生信|20197 次阅读|0 个评论
[转载]extract multiple sequence from multi FASTA file with PERL
shengweima 2014-11-11 10:36
extract.seq.pl 用法 SCRIPT 1 : EXTRACT-SEQ.PL USES perl extract-seq.pl id.txt sequence.txt INPUT Sequences Seq1 TGCTCCCGGCCGCACTGGCGGCCGCGGGAATTCGATTCGACAAGGCGTTGGTGCTGCCCACAAAGGC CAGTTCGATATCGCGCTCGCGGGTTTGCAACTGCAACAGGCTCTGGTCATAGCCTTTGGGCACGAAC ACCGCATCAAAGCCTTCTTCGCGCAGGCGTTCGCTGACCATGAAGCCCGAACAGATCACCCGCGCCC AGGGCAGCTTGCGATAGTGCGCGCTGAACTTGCCGGTGTACTTGCAGGGGATGTAGTTCTGGTAGGC ATCGTGTTCAAGGATGACCAGATTGGGAATCGTGCGGATGAACCCGACCTGACGGACTTCCTGCTTG AAGCGCAGAAAAAACACGATCCGGTCATAACGCTCGACATCCACTTCACGGCGGAAATAGCCACGCA AGGTTGCGCTGCTCATCGGAGCTCCAGCCCAACCGCACCTCGCACTCACAATACGCGGCGATGCCCT TCATAAAGACGGTCGAGAATGGCCCGCTGCTCTTTCTTGGACCCCAGAAGTANAAACCTTTTCATGG GGTNTTCCCTTGCCAGTTACCTGCGCCCCTGCCTGAAATCACGATATT Seq2 TGCTCCCGGCCGCACTGGCGGCCGCGGGAATTCGATTCGACAAGGCGTTGGTGCTGCCCACAAAGGCCAGTTCGATATCGCGCTCGCGGGTTTGCAACTGCAACAGGCTCTGGTCATAGCCTTTGGGCACGAACACCGCATCAAAGCCTTCTTCGCGCAGGCGTTCGCTGACCATGAAGCCCGAACAGATCACCCGCGCCCAGGGCAGCTTGCGATAGTGCGCGCTGAACTTGCCGGTGTACTTGCAGGGGATGTAGTTCTGGTAGGCATCGTGTTCAAGGATGACCAGATTGGGAATCGTGCGGATGAACCCGACCTGACGGACTTCCTGCTTGAAGCGCAGAAAAAACACGATCCGGTCATAACGCTCGACATCCACTTCACGGCGGAAATAGCCACGCAAGGTTGCGCTGCTCATCGGAGCTCCAGCCCAACCGCACCTCGCACTCACAATACGCGGCGATGCCCTTCATAAAGACGGTCGAGAATGGCCCGCTGCTCTTTCTTGGACCCCAGAAGTANAAACCTTTTCATGGGGTNTTCCCTTGCCAGTTACCTGCGCCCCTGCCTGAAATCACGATATT Seq3 TGCTCCCGGCCGCACTGGCGGCCGCGGGAATTCGATTCGACAAGGCGTTGGTGCTGCCCACAAAGGCCAGTTCGATATCGCGCTCGCGGGTTTGCAACTGCAACAGGCTCTGGTCATAGCCTTTGGGCACGAACACCGCATCAAAGCCTTCTTCGCGCAGGCGTTCGCTGACCATGAAGCCCGAACAGATCACCCGCGCCCAGGGCAGCTTGCGATAGTGCGCGCTGAACTTGCCGGTGTACTTGCAGGGGATGTAGTTCTGGTAGGCATCGTGTTCAAGGATGACCAGATTGGGAATCGTGCGGATGAACCCGACCTGACGGACTTCCTGCTTGAAGCGCAGAAAAAACACGATCCGGTCATAACGCTCGACATCCACTTCACGGCGGAAATAGCCACGCAAGGTTGCGCTGCTCATCGGAGCTCCAGCCCAACCGCACCTCGCACTCACAATACGCGGCGATGCCCTTCATAAAGACGGTCGAGAATGGCCCGCTGCTCTTTCTTGGACCCCAGAAGTANAAACCTTTTCATGGGGTNTTCCCTTGCCAGTTACCTGCGCCCCTGCCTGAAATCACGATATT Seq4 TGCTCCCGGCCGCACTGGCGGCCGCGGGAATTCGATTCGACAAGGCGTTGGTGCTGCCCACAAAGGCCAGTTCGATATCGCGCTCGCGGGTTTGCAACTGCAACAGGCTCTGGTCATAGCCTTTGGGCACGAACACCGCATCAAAGCCTTCTTCGCGCAGGCGTTCGCTGACCATGAAGCCCGAACAGATCACCCGCGCCCAGGGCAGCTTGCGATAGTGCGCGCTGAACTTGCCGGTGTACTTGCAGGGGATGTAGTTCTGGTAGGCATCGTGTTCAAGGATGACCAGATTGGGAATCGTGCGGATGAACCCGACCTGACGGACTTCCTGCTTGAAGCGCAGAAAAAACACGATCCGGTCATAACGCTCGACATCCACTTCACGGCGGAAATAGCCACGCAAGGTTGCGCTGCTCATCGGAGCTCCAGCCCAACCGCACCTCGCACTCACAATACGCGGCGATGCCCTTCATAAAGACGGTCGAGAATGGCCCGCTGCTCTTTCTTGGACCCCAGAAGTANAAACCTTTTCATGGGGTNTTCCCTTGCCAGTTACCTGCGCCCCTGCCTGAAATCACGATATT Seq5 TGCTCCCGGCCGCACTGGCGGCCGCGGGAATTCGATTCGACAAGGCGTTGGTGCTGCCCACAAAGGCCAGTTCGATATCGCGCTCGCGGGTTTGCAACTGCAACAGGCTCTGGTCATAGCCTTTGGGCACGAACACCGCATCAAAGCCTTCTTCGCGCAGGCGTTCGCTGACCATGAAGCCCGAACAGATCACCCGCGCCCAGGGCAGCTTGCGATAGTGCGCGCTGAACTTGCCGGTGTACTTGCAGGGGATGTAGTTCTGGTAGGCATCGTGTTCAAGGATGACCAGATTGGGAATCGTGCGGATGAACCCGACCTGACGGACTTCCTGCTTGAAGCGCAGAAAAAACACGATCCGGTCATAACGCTCGACATCCACTTCACGGCGGAAATAGCCACGCAAGGTTGCGCTGCTCATCGGAGCTCCAGCCCAACCGCACCTCGCACTCACAATACGCGGCGATGCCCTTCATAAAGACGGTCGAGAATGGCCCGCTGCTCTTTCTTGGACCCCAGAAGTANAAACCTTTTCATGGGGTNTTCCCTTGCCAGTTACCTGCGCCCCTGCCTGAAATCACGATAT Seq6 TGCTCCCGGCCGCACTGGCGGCCGCGGGAATTCGATTCGACAAGGCGTTGGTGCTGCCCACAAAGGCCAGTTCGATATCGCGCTCGCGGGTTTGCAACTGCAACAGGCTCTGGTCATAGCCTTTGGGCACGAACACCGCATCAAAGCCTTCTTCGCGCAGGCGTTCGCTGACCATGAAGCCCGAACAGATCACCCGCGCCCAGGGCAGCTTGCGATAGTGCGCGCTGAACTTGCCGGTGTACTTGCAGGGGATGTAGTTCTGGTAGGCATCGTGTTCAAGGATGACCAGATTGGGAATCGTGCGGATGAACCCGACCTGACGGACTTCCTGCTTGAAGCGCAGAAAAAACACGATCCGGTCATAACGCTCGACATCCACTTCACGGCGGAAATAGCCACGCAAGGTTGCGCTGCTCATCGGAGCTCCAGCCCAACCGCACCTCGCACTCACAATACGCGGCGATGCCCTTCATAAAGACGGTCGAGAATGGCCCGCTGCTCTTTCTTGGACCCCAGAAGTANAAACCTTTTCATGGGGTNTTCCCTTGCCAGTTACCTGCGCCCCTGCCTGAAATCACGATATT IDs Seq1 Seq2 Seq3 Seq4 Seq5 Seq6
2725 次阅读|0 个评论
BioWord, a powerful biological sequence editor inside Word
raindyok 2013-6-14 21:02
BioWord,一个Word插件,可用于 核苷酸序列和氨基酸序列 的常规操作,上图先睹为快,推荐使用! 官方网站: http://compbio.umbc.edu/3655/ BioWord is a powerful biological sequence editor operating in the most convenient of places: inside your usual word-processor (Microsoft Word 2007 and 2010). Easy to install and embedded into a Microsoft Office Ribbon, BioWord allows instant access to most sequence manipulation and editing needs, such as reverse-complementing, DNA to protein translation or FASTA formatting, and features a full suite of sequence search methods, pair-wise alignment and motif discovery, as well as the ability to generate consensus logos for both DNA and protein multiple sequence alignments.
个人分类: 软件教程|6186 次阅读|0 个评论
works of RBM on how to model high dimensional sequence data
justinzhao 2013-4-6 07:50
Great work on high dimensional video sequence modelling using RBM.To read... Learning Multilevel Distributed Representations for High-Dimensional Sequences.Ilya Sutskever and Geoffrey Hinton
个人分类: 读书日记|3498 次阅读|0 个评论
[转载]水稻已克隆的基因方面的文献
zyj20020116 2012-11-19 15:11
1 Adh1 A Point Mutation of Adh1 Gene is Involved in the Repression of coleoptile Elongation under Submergence in Rice Adh1 2 A novel mutated acetolactate synthase gene conferring specific resistance to pyrimidinyl carboxy herbicides in rice ALS-G95A 3 Map-based cloning of a novel rice cytochrome P450 gene CYP81A6 that confers resistance to two different class of herbicides Bel 4 Cloning and sequence analysis of a low temperature-induced gene from trifoliate orange with unusual pre-mRNA processing CLTa 5 Cloning and sequence analysis of a low temperature-induced gene from trifoliate orange with unusual pre-mRNA processing CLTb 6 A Novel Cytochrome P450 Is Implicated in Brassinosteroid Biosynthesis via the Characterization of a Rice Dwarf Mutant, dwarf11, with Reduced Seed Length D11 7 A Rice Brassinosteroid-Deficient Mutant,ebisu dwarf(d2), Is Caused by a Loss of Function of a New Member of Cytochrome P450 D2 8 Suppression of Tiller Bud Activity in Tillering Dwarf Mutants of Rice D3 9 dull:rice mutants with tissue-specific effects on the splicing of the waxy pre-mRNA du1 10 dull:rice mutants with tissue-specific effects on the splicing of the waxy pre-mRNA du2 11 Ehd1, a B-type response regulator in rice,confers short-day promotion of flowering and controls FT-like gene expression independently of Hd1 Ehd1 12 EUI1, Encoding a Putative Cytochrome P450 Monooxygenase, Regulates Internode Elongation by Modulating Gibberellin Responses in Rice EUI1 13 The gene for fragrance in rice FRG 14 gid1 , a gibberellin-insensitive dwarf mutant, shows altered regulation of probenazole-inducible protein (PBZ1) in response to cold stress and pathogen attack gid1 15 Cytokinin Oxidase Regulates Rice Grain Production Gn1a 16 GS3, a major QTL for grain length and weight and minor QTL for grain width and thickness in rice, encodes a putative transmembrane protein GS3 17 A QTL for rice grain width and weightencodes a previously unknown RING-type E3 ubiquitin ligase GW2 18 Hd1, a Major Photoperiod Sensitivity Quantitative Trait Locus in Rice, Is Closely Related to the Arabidopsis Flowering Time Gene CONSTANS Hd1 19 Hd3a, a Rice Ortholog of the Arabidopsis FT Gene, Promotes Transition to Flowering Downstream of Hd1 under Short-Day Conditions Hd3a 20 Hd6, a rice quantitative trait locus involved in photoperiod sensitivity, encodes the a subunit of protein kinase CK2 Hd6 21 LAX and SPA: Major regulators of shoot branching in rice LAX 22 Control of tillering in rice MOC1 23 Expression of an NADP-malic enzyme gene in rice (Oryza sativa. L) is induced by environmental stresses; over-expression of the gene in Arabidopsis confers salt and osmotic stress tolerance NADP-ME2 24 Rice NRR, a negative regulator of disease resistance, interacts with Arabidopsis NPR1 and rice NH1 NRR 25 Rice NTRC Is a High-Efficiency Redox System for Chloroplast Protection against Oxidative Damage NTRC 26 Rice NON-YELLOW COLORING1 Is Involved in Light-Harvesting Complex II and Grana Degradation during Leaf Senescence nyc1 27 Os8N3 is a host disease-susceptibility gene for bacterial blight of rice Os8N3 28 Over-expression of OsAGAP, an ARF-GAP, interferes with auxin influx, vesicle trafficking and root development OsAGAP 29 Cloning and characterization of a second form of the rice adenine phosphoribosyl transferase gene (OsAPT2) and its association with TGMS OsAPT2 30 The structure of starch can be manipulated by changing the expression levels of starch branching enzyme IIb in rice endosperm OsBE2b 31 Overexpression of the rice EREBP-like gene OsBIERF3 enhances disease resistance and salt tolerance in transgenic tobacco OsBIERF3 32 Overexpression in transgenic tobacco reveals different roles for the rice homeodomain gene OsBIHD1 in biotic and abiotic stress responses OsBIHD1 33 Loss of Function of a Rice brassinosteroid insensitive1 Homolog Prevents Internode Elongation and Bending of the Lamina Joint OsBRI1 34 Three Distinct Rice Cellulose Synthase Catalytic Subunit Genes Required for Cellulose Synthesis in the Secondary Wall1 OsCesA4 35 Three Distinct Rice Cellulose Synthase Catalytic Subunit Genes Required for Cellulose Synthesis in the Secondary Wall1 OsCesA7 36 Three Distinct Rice Cellulose Synthase Catalytic Subunit Genes Required for Cellulose Synthesis in the Secondary Wall1 OsCesA9 37 Salt-dependent regulation of chloride channel transcripts in rice OsCLC1 38 Cloning and characterization of a novel rice gene family encoding putative dual-specificity protein kinases, involved in plant responses to abiotic and biotic stresses OsDPKs 39 OsDREB genes in rice, Oryza sativa L., encode transcription activators that function in drought-, high-salt- and cold-responsive gene expression OsDREB 40 OsDREB4 Genes in Rice Encode AP2-Containing Proteins that Bind Specifically to the Dehydration-Responsive Element OsDREB4 41 Identification of Syn-Pimara-7,15-Diene Synthase Reveals Functional Clustering of Terpene Synthases Involved in Rice Phytoalexin/Allelochemical Biosynthesis1 in Rice Phytoalexin/Allelochemical Biosynthesis OsDTS2 42 erect leaves caused by brassinosteroid deficiency increase biomass production and grain yield in rice.pdf OsDWARF4 43 A role of OsGA20ox1, encoding an isoform of gibberellin 20-oxidase, for regulation of plant stature in rice OsGA20ox1 44 The rice OsGAE1 is a novel gibberellin-regulated gene and involved in rice growth OsGAE1 45 Severe reduction in growth rate and grain filling of rice mutants lacking OsGS1;1, a cytosolic glutamine synthetase1;1 OsGS1 46 OsHAP3 genes regulate chloroplast biogenesis in rice OsHAP3 47 The rice bHLH protein OsIRO2 is an essential regulator of the genes involved in Fe uptake under Fe-deficient conditions OsIRO2 48 The rice OsLOL2 gene encodes a zinc Wnger protein involved in rice growth and disease resistance OsLOL2 49 Cloning of a putative monogalactosyldiacylglycerol synthase gene from rice ( Oryza sativaL.) plants and its expression in response to submergence and other stresses OsMGD 50 Mitogen-activated protein kinase OsMPK6 negatively regulates rice disease resistance to bacterial pathogens OsMPK6 51 Characterization of a rice class II metallothionein gene: Tissue expression patterns and induction in response to abiotic factors OsMT-II-1a 52 Rice gene OsNAC19 encodes a novel NAC-domain transcription factor and responds to infection by Magnaporthe grisea OsNAC19 53 Functional analysis of a NAC-type transcription factor OsNAC6 involved in abiotic and biotic stress-responsive gene expression in rice OsNAC6 54 The Oryza sativa no pollen (Osnop) gene plays a role in male gametophyte development and most likely encodes a C2-GRAM domain-containing protein Osnop 55 Characterization of the gene for 1-pyrroline-5-carboxylate synthetase and correlation between the expression of the gene and salt tolerance in Oryza sativa L. OsP5CS 56 Expression of the OsPI1 gene, cloned from rice roots using cDNA microarray, rapidly responds to phosphorus status OsPI1 57 OsPIPK1, a rice phosphatidylinositol monophosphate kinase, regulates 2 rice heading by modifying the expression of floral induction genes OsPIPk1 58 OsPNH1 regulates leaf development and maintenance of the shoot apical meristem in rice OsPNH1 59 Function of the rice gp91phox homologs OsrbohA and OsrbohE genes in ROS-dependent plant immune responses OsrbohA 60 Overexpression of OsSIN, encoding a novel small protein,causes short internodes in Oryza sativa Ossin 61 The OsTB1 gene negatively regulates lateral branching OsTB1 62 High-resolution mapping, cloning and molecular characterization of the Pi- kh gene of rice, which confers resistance to Magnaporthe grisea Pi- kh 63 The Broad-Spectrum Blast Resistance Gene Pi9 Encodes an NBS-LRR Protein and is a Member of a Multigene Family in Rice Pi9 64 PLASTOCHRON2 Regulates Leaf Initiation and Maturation in Rice PLA2 65 Isolation of a rice regeneration quantitative trait loci gene and its application to transformation systems PSR1 66 An SNP Caused Loss of Seed Shattering During Rice Domestication qSH1 67 Positional cloning of the rice Rf-1 gene, a restorer of BT-type cytoplasmic male sterility that encodes a mitochondria-targeting PPR protein Rf-1 68 Rice Immature Pollen 1 (RIP1) is a regulator of late pollen development RIP1 69 Synergism between RPBF Dof and RISBZ1 bZIP Activators in the Regulation of Rice Seed Expression Genes RPBF 70 Alteration of TGA factor activity in rice results in enhanced tolerance to Xanthomonas oryzae pv. oryzae rTGA2.1 71 RTS, a rice anther-specific gene is required for male fertility and its promoter sequence directs tissue-specific gene expression in different plant species RTS 72 Mutations in the eIF(iso)4G translation initiation factor confer high resistance of rice to Rice yellow mottle virus Rymv1 73 Semidwarf ( sd-1), ‘‘green revolution’’ rice, contains a defective gibberellin 20-oxidase gene sd-1 74 A rice quantitative trait locus for salt tolerance encodes a sodium transporter skc1 75 The rice heterochronic gene SUPERNUMERARY BRACT regulates the transition from spikelet meristem to floral meristem SNB 76 LAX and SPA: Major regulators of shoot branching in rice SPA 77 Rice UDP-Glucose Pyrophosphorylase1 Is Essential for Pollen Callose Deposition and Its Cosuppression Results in a New Type of Thermosensitive Genic Male Sterility Ugp1 78 Rice XA21 Binding Protein 3 Is a Ubiquitin Ligase Required for Full Xa21-Mediated Disease Resistance XA21 79 R gene expression induced by a type-III effector triggers disease resistance in rice Xa27 80 The Rice Bacterial Blight Resistance Gene xa5 Encodes a Novel Form of Disease Resistance xa5 81 A quantitative trait locus regulating rice grain width GW2 82 Molecular characterization of a novel isoform of rice (Oryza sativa L.) glycine rich-RNA binding protein and evidence for its involvement in high temperature stress response OsGR-RBP4 83 Induction of a cDNA clone from rice encoding a class II small heat shock protein by heat stress, mechanical injury, and salicylic acid Oshsp18.0-CII 84 Cytoplasmic Male Sterility of Rice with Boro II Cytoplasm Is Caused by a Cytotoxic Peptide and Is Restored by Two Related PPR Motif Genes via Distinct Modes of mRNA Silencing RF1A 85 Cytoplasmic Male Sterility of Rice with Boro II Cytoplasm Is Caused by a Cytotoxic Peptide and Is Restored by Two Related PPR Motif Genes via Distinct Modes of mRNA Silencing RF1B 86 The expression of the large rice FK506 binding proteins (FKBPs) demonstrate tissue specificity and heat stress responsiveness rFKBP64 87 The expression of the large rice FK506 binding proteins (FKBPs) demonstrate tissue specificity and heat stress responsiveness rFKBP65 88 The expression of the large rice FK506 binding proteins (FKBPs) demonstrate tissue specificity and heat stress responsiveness rFKBP75 89 Expression of Xa1, a bacterial blight-resistance gene in rice, is induced by bacterial inoculation Xa1 90 Isolation and characterization of a rice cDNA encoding B1-type cyclin-dependent kinase CDKB1 91 Rice Chlorina-1 and Chlorina-9 encode ChlD and ChlI subunits of Mg-chelatase, a key enzyme for chlorophyll synthesis and chloroplast development Chl1 92 Rice Chlorina-1 and Chlorina-9 encode ChlD and ChlI subunits of Mg-chelatase, a key enzyme for chlorophyll synthesis and chloroplast development Chl9 93 ELONGATED UPPERMOST INTERNODE Encodes a Cytochrome P450 Monooxygenase That Epoxidizes Gibberellins in a Novel Deactivation Reaction in Rice EUI 94 A Rice Family 9 Glycoside Hydrolase Isozyme with Broad Substrate Specificity for Hemicelluloses in Type II Cell Walls EGase 95 The Rice Mutant dwarf bamboo shoot 1: A Leaky Mutant of the NACK-type Kinesin-like Gene Can Initiate Organ Primordia but not Organ Development dbs1 96 Rice ABERRANT PANICLE ORGANIZATION 1, encoding an F-box protein, regulates meristem fate APO1 97 Ds tagging of BRANCHED FLORETLESS 1 (BFL1) that mediates the transition from spikelet to floret meristem in rice (Oryza sativa L) BFL1 98 The Rice COLEOPTILE PHOTOTROPISM1 Gene Encoding an Ortholog of Arabidopsis NPH3 Is Required for Phototropism of Coleoptiles and Lateral Translocation of Auxin CPT1 99 The Rice COLEOPTILE PHOTOTROPISM1 Gene Encoding an Ortholog of Arabidopsis NPH3 Is Required for Phototropism of Coleoptiles and Lateral Translocation of Auxin of Coleoptiles and Lateral Translocation of Auxin CPT1 100 Rice tillering dwarf mutant dwarf3 has increased leaf longevity during darkness-induced senescence or hydrogen peroxide-induced cell death D3 101 Analysis of the Rice Mutant dwarf and gladius leaf 1.Aberrant Katanin-Mediated Microtubule Organization Causes Up-Regulation of Gibberellin Biosynthetic Genes Independently of Gibberellin Signaling DGL1 102 The YABBY Gene DROOPING LEAF Regulates Carpel Specification and Midrib Development in Oryza sativa DL1 103 SUPERWOMAN1 and DROOPING LEAF genes control floral organ identity in rice DL1 104 DWARF10, an RMS1/MAX4/DAD1 ortholog, controls lateral bud outgrowth in rice DWARF10 105 Characterization of the Rice Floral Organ Number Mutant fon3 fon3 106 FON4 Regulates Apical Meristem Size FON4 107 The Rice 14-3-3 Gene Family and its Involvement in Responses to Biotic and Abiotic Stress GF14 108 GIBBERELLIN INSENSITIVE DWARF1 encodes a soluble receptor for gibberellin GID1 109 Rice GIBBERELLIN INSENSITIVE DWARF1 Is a Gibberellin Receptor That Illuminates and Raises Questions about GA Signaling GID1 110 Molecular Interactions of a Soluble Gibberellin Receptor,GID1, with a Rice DELLA Protein, SLR1, and Gibberellin GID1 111 GID2,an F-box subunit of the SCF E3 complex,specifically interacts with phosphorylated SLR1 protein and regulates the gibberellin-dependent degradation of SLR1 in rice GID2 112 Accumulation of Phosphorylated Repressor for Gibberellin Signaling in an F-box Mutant GID2 113 A Rice Glutamate Receptor–Like Gene Is Critical for the Division and Survival of Individual Cells in the Root Apical Meristem GLR3.1 114 Quantitative nature of the Prolamin-box,ACGT and AACA motifs in a rice glutelin gene promoter:minimal cis-element requirements for endosperm-specific gene expression GluB-1 115 Radial axis differentiation in a globular embryo is marked by HAZ1,a PHD-finger homeobox gene of rice HAZ1 116 Functional analysis of rice KRPs KRP1 117 LAZY1 controls rice shoot gravitropism through regulating polar auxin transport LAZY1 118 Overexpression of LSH1 a member of an uncharactrised gene family,causes enhanced light regulation of seeding development LSH1 119 Molecular characterization of ONAC300, a novel NAC gene specifically expressed at early stages in various developing tissues of rice ONAC300 120OsAGO7 121 Molecular characterization of b-galactosidases from germinating rice (Oryza sativa) OsBGal1 122 Molecular characterization of b-galactosidases from germinating rice (Oryza sativa) OsBGal2 123 Differential regulation of chlorophyll a oxygenase genes in rice OsCAO1 124 Differential regulation of chlorophyll a oxygenase genes in rice OsCAO2 125 Expression of the Vacuolar Ca2+/H+ Exchanger, OsCAX1a, in Rice: Cell and Age Specificity of Expression, and Enhancement by Ca2+ OsCAX1a 126 Carbohydrate-Binding Module of a Rice Endo-b-1,4-glycanase, OsCel9A,Expressed in Auxin-Induced Lateral Root Primordia, is Post-Translationally Truncated OsCel9A 127 Molecular Cloning, Functional Expression and Subcellular Localization of Two Putative Vacuolar Voltage-gated Chloride Channels in Rice (Oryza sativa L.) OsCLC-1 128 Molecular Cloning, Functional Expression and Subcellular Localization of Two Putative Vacuolar Voltage-gated Chloride Channels in Rice (Oryza sativa L.) OsCLC-2 129 An active DNA transposon nDart causing leaf variegation and mutable dwarfism and its related elements in rice OsClpP5 130 Constitutively wilted 1, a member of the rice YUCCA gene family,is required for maintaining water homeostasis and an appropriate root to shoot ratio OsCOW1 131 Isolation and characterization of a rice cysteine protease gene, OsCP1,using T-DNA gene-trap system OsCP1 132 OsDMC1 is required for homologous pairing in Oryza sativa OsDMC1 133 A Novel Nuclear Protein OsDOS for Delaying Leaf Senescence OsDOS 134 Isolation, optimization, and functional analysis of the cDNA encoding transcription factor OsDREB1B in Oryza Sativa L. OsDREB1BI 135 Identification of Syn-Pimara-7,15-Diene Synthase Reveals Functional Clustering of Terpene Synthases Involved in Rice Phytoalexin/Allelochemical Biosynthesis1 OsDTS2 136 Conservation and divergence of FCA function between Arabidopsis and rice osfca 137 OsGAP1 Functions as a Positive Regulator of OsRab11-mediated TGN to PM or Vacuole Trafficking OsGAP1 138 Cloning, characterization and expression of OsGLN2, a rice endo-1,3-b-glucanase gene regulated developmentally in flowers and hormonally in germinating seeds OsGLN2 139 OsGLU1, a putative membrane-bound endo-1,4-b-D-glucanase from rice, affects plant internode elongation OsGLU1 140 Identification and fine mapping of a thermo-sensitive chlorophyll deficient mutant in rice (Oryza sativa L.) OsGluRS 141 A Novel Short-Root Gene Encodes a Glucosamine-6-Phosphate Acetyltransferase Required for Maintaining Normal Root Cell Shape in Rice OsGNA1 142 Down-Regulation of OsGRF1 Gene in Rice rhd1 Mutant Results in Reduced Heading Date OsGRF1 143 Loss-of-function mutations in the rice homeobox gene OSH15 affect the architecture of internodes resulting in dwarf plants OSH15 144 Sodium transport and HKT transpoters:the rice model OsHKT1 145 Rice OsHKT2;1 transporter mediates large Nat influx component into Kt-starved roots for growth OsHKT2;1 146 Sodium transport and HKT transpoters:the rice model OsHKT4 147 OsHT, a rice gene encoding for a plasma-membrane localized histidine transporter OsHT 148 Isolation and characterization of a Ds-tagged rice ( Oryza sativa L.) GA-responsive dwarf mutant defective in an early step of the gibberellin biosynthesis pathway OsKS1 149 Conservation of the E-function for floral organ identity in rice revealed by the analysis of tissue culture-induced loss-of-function mutants of the OsMADS1 gene OsMADS1 150 Functional analysis of the rice AP3 homologue OsMADS16 by RNA interference OsMADS16 151 Divergent Regulatory OsMADS2 Functions Control Size, Shape and Differentiation of the Highly Derived Rice Floret Second-Whorl Organ OsMADS2 152 Divergent Regulatory OsMADS2 Functions Control Size, Shape and Differentiation of the Highly Derived Rice Floret Second-Whorl Organ Second-Whorl Organ OsMADS2 153 OsMADS22, an STMADS11-like MADS-box gene of rice, is expressed in non-vegetative tissues and its ectopic expression induces spikelet meristem indeterminacy OsMADS22 154 Evaluation of transgenic tomato plants ectopically expressing the rice Osmyb4 gene Osmyb4 155 Genes for alkaline/neutral invertase in rice: alkaline/neutral invertases are located in plant mitochondria and also in plastids OsNIN1 156 Genes for alkaline/neutral invertase in rice: alkaline/neutral invertases are located in plant mitochondria and also in plastids OsNIN3 157 Overexpression of the OsPDCD5 Gene Induces Programmed Cell Death in Rice OsPDCD5 158 Gibberellin Regulates Mitochondrial Pyruvate Dehydrogenase Activity in Rice OsPDK1 159 Cloning of two splice variants of the rice PTS1 receptor,OsPex5pL and OsPex5pS, and their functional characterization using pex5-deficient yeast and Arabidopsis OsPex5pL 160 Cloning of two splice variants of the rice PTS1 receptor,OsPex5pL and OsPex5pS, and their functional characterization using pex5-deficient yeast and Arabidopsis OsPex5pS 161 Transcriptomic analysis indicates putative metabolic changes caused by manipulation of phosphorus availability in rice leaves OsPI1 162 White-core endosperm floury endosperm-4 in rice is generated by knockout mutations in the C4-type pyruvate orthophosphate dikinase gene (OsPPDKB) OsPPDKB 163 Down-Regulation of Metallothionein, a Reactive Oxygen Scavenger, by the Small GTPase OsRac1 in Rice OsRac1 164 Structural Analysis and Identification of Cis-Elements of Rice osRACD Gene.pdf OsRACD 165 OsRAD21-3, an orthologue of yeast RAD21, is required for pollen development in Oryza sativa OsRAD21-3 166 Function of the rice gp91phox homologs OsrbohA and OsrbohE genes in ROS-dependent plant immune responses OsrbohE 167 Overexpression of a Type-A Response Regulator Alters Rice Morphology and Cytokinin Metabolism OsRR6 168 The SCARECROW genes role in asymmetric cell divisions in rice plants OsSCR 169 Down-Regulation of a SILENT INFORMATION REGULATOR2-Related Histone Deacetylase Gene,OsSRT1,Induces DNA Fragmentation and Cell Death in Rice OsSRT1 170 Screening of the Rice Viviparous Mutants Generated by Endogenous Retrotransposon Tos17 Insertion. Tagging of a Zeaxanthin Epoxidase Gene and a Novel OsTATC Gene1 OsTATC 171 Identification of a putative voltage-gated Ca2+ channel as a key regulator of elicitor-induced hypersensitive cell death and mitogen-activated protein kinase activation in rice OsTPC1 172 Functional analysis of OsTUB8, an anther-specific b-tubulin in rice OsTUB8 173 Anno tations and Functional Analyses of the Rice WRKY Gene Superfamily Reveal Positive and Negative Regulators of Abscisic Acid Signaling in Aleurone Cells1 OsWRKY 174 Characterization of a Xyloglucan Endotransglucosylase Gene That Is Up-Regulated by Gibberellin in Rice1 OsXTH8 175 Molecular characterization the YABBY gene family in Oryza sativa and expression analysis of OsYABBY1 OsYABBY1 176 The Novel Gene HOMOLOGOUS PAIRING ABERRATION IN RICE MEIOSIS1 of Rice Encodes a Putative Coiled-Coil Protein Required for Homologous Chromosome Pairing in Meiosis PAIR1 177 An insertional mutation in the rice PAIR2gene, the ortholog of Arabidopsis ASY1, results in a defect in homologous chromosome pairing during meiosis PAIR2 178 Isolation and Characterization of Rice Phytochrome A Mutants phyA 179 Posttranslational regulation of pyruvate, orthophosphate dikinase in developing rice ( Oryza sativa) seeds PPDK 180 isolation and characterization of a rice WUSCHEL-type homeobox gene that is specifically expressed in the central cells of a quiescent center in the root apical meristem QHB 181 A new rice zinc-finger protein binds to the O2S box of the a-amylase gene promoter RAMY 182 The Rc and Rd genes are involved in proanthocyanidin synthesis in rice pericarp Rc 183 Caught Red-Handed: Rc Encodes a Basic Helix-Loop-Helix Protein Conditioning Red Pericarp in Rice Rc 184 Overexpression of RCN1 and RCN2, rice TERMINAL FLOWER 1/CENTRORADIALIS homologs, confers delay of phase transition and altered panicle morphology in rice RCN1 185 Overexpression of RCN1 and RCN2, rice TERMINAL FLOWER 1/CENTRORADIALIS homologs, confers delay of phase transition and altered panicle morphology in rice RCN2 186 The Rc and Rd genes are involved in proanthocyanidin synthesis in rice pericarp Rd 187 Rice Immature Pollen 1 (RIP1) is a Regulator of Late Pollen Development RIP1 188 A putative acyl-CoA-binding protein is a major phloem sap protein in rice (Oryza sativa L.) RPP10 189 SDG714, a Histone H3K9 Methyltransferase, Is Involved in Tos17 DNA Methylation and Transposition in Rice SDG714 190 Origin of seed shattering in rice (Oryza sativa L.) SHA1 191 slender Rice, a Constitutive Gibberellin Response Mutant, Is Caused by a Null Mutation of the SLR1 Gene, an Ortholog of the Height-Regulating Gene GAI/RGA/RHT/D8 SLR1 192 Regulatory Mechanisms of ROI Generation are Affected by Rice spl Mutations spl 193 Regulatory Mechanisms of ROI Generation are Affected by Rice spl Mutations spl11 194 Regulatory Mechanisms of ROI Generation are Affected by Rice spl Mutations spl2 195 Regulatory Mechanisms of ROI Generation are Affected by Rice spl Mutations spl7 196 SUPERWOMAN1 and DROOPING LEAFgenes control floral organ identity in rice SPW1 197 Rice Undeveloped Tapetum1 Is a Major Regulator of Early Tapetum Development udt1
3246 次阅读|0 个评论
[转载]近期的基因组研究
热度 1 syfox 2012-10-17 15:14
美国的《The Scientist》杂志是一本面向生命科学的学生、研究人员的杂志,与学术期刊不同的是,该杂志除了报道研究领域内的热点话题外,还深入研究人员所关心的其他话题,如怎样进行职业规划、怎样用高科技创业等。其背后有全世界最优秀的专家团队——F1000(Faculty1000)的支持。近日The Scientist推荐了近期值得关注的基因组测序研究,如下: 1.洋菇生物通 洋菇是世界上最常见的一种商业种植蘑菇,第一个基因组序列图谱揭示了它们的秘密。生活在落叶层和森林地被物中,这些生态上宝贵的分解者拥有一个多糖降解酶宝库,解构木材和其他的植物材料,它们根据周围的环境来开启这些酶。研究人员还发现了与启动蘑菇繁殖,称作芽殖有关的关键基因,这是世界各地蘑菇种植者一个最大的挑战。 E. Morin, et al., “Genome sequence of the button mushroom Agaricus bisporus reveals mechanisms governing adaptation to a humic-rich ecological niche,” Proceedings of the National Academies of Science, doi: 10.1073/pnas.1206847109, 2012.生物通 www.ebiotrade.com 2. 雷蒙德氏棉生物通 www.ebiotrade.com 中国农业科学院、华大基因研究院和北京大学生命科学学院的研究人员联合公布了二倍体棉花雷蒙德氏棉(Gossypium raimondii)的草图基因组。研究人员测序和组装了雷蒙德氏棉的草图基因组,雷蒙德氏棉的祖先被公认为是生成皮棉的经济上重要的棉花种类陆地棉(G.hirsutum)和海岛棉(G. barbadense)D亚基因组的供体。超过73%的组装序列被锚定在13条雷蒙德氏棉染色体上。生物通 www.ebiotrade.com 基因组包括了40,976个蛋白质编码基因,92.2%得到了转录数据的进一步证实。首次较为准确地报道了很可能发生在1.3亿年(115.4~146.1百万年)前的古双子叶植物基因组复制事件和发生在1600万年(13.3~20.0百万年)前的棉花基因组复制事件,证实了超长联脂肪酸途径和乙烯代谢途径对棉纤维发生发育的重要意义,解析了棉酚合成基因的起源和演化。生物通 www.ebiotrade.com 这项研究发现,“可可”与棉花基因组拥有最大量的同源序列,因此可能是亲缘关系最近的物种。上述研究结果将对人类认识古双子叶植物基因组复制机制产生深远和持久的影响。生物通 www.ebiotrade.com K. Wang, et al. “The draft genome of a diploid cotton Gossypium raimondii,” Nature Genetics, 44:1098-1103, 2012.生物通 www.ebiotrade.com 3.匙吻鲟生物通 www.ebiotrade.com 美国旧金山州立大学的科学家将老鼠的肢体基因与鱼类的鳍基因进行比较。此前有关匙吻鲟的研究显示,这种鱼类在出现四足动物前很久就拥有生长出肢体所需要的“基因包”。四足动物最后进化成爬行类、鸟类、两栖类和哺乳动物。生物通 www.ebiotrade.com 研究中,克劳和同事对美洲匙吻鲟含有19个Hox基因的染色体片段进行了排序。Hox基因决定体形和肢体发育,同时也是帮助科学发现整个基因族副本的主要指示器。完整基因组副本被研究人员称之为进化史上“一个颠覆游戏规则的事件”,让一种物种出现新种或者奇特种群创造了条件。生物通 www.ebiotrade.com 这种复制的出现是一系列看似不可能的条件同时满足的结果,让匙吻鲟的每一个基因都拥有副本。完成复制后,基因对中的一个基因保持原有的功能,另一个要么消失,要么拥有一个新功能。科学家认为这种基因组复制在有颌类脊椎动物出现前就已发生。在进化树的特定谱系也出现完整基因组复制现象,植物要比动物更为普遍。生物通 www.ebiotrade.com E. Morin, et al., “Genome sequence of the button mushroom Agaricus bisporus reveals mechanisms governing adaptation to a humic-rich ecological niche,” Proceedings of the National Academies of Science, doi: 10.1073/pnas.1206847109, 2012.生物通 www.ebiotrade.com 4.牡蛎生物通 www.ebiotrade.com 中国科学院海洋研究所和深圳华大基因研究院领导的一个国际研究小组完成了对太平洋牡蛎(Pacific oyster)的测序、组装与分析,这是第一个测序的软体动物基因组,将有助于填补我们对于种类丰富而较少研究的软体动物家族的了解空白。该成果是在国际贝类学研究中的一项重大突破,在贝类学和海洋生物学领域取得的重要研究进展。这项研究将为研究软体动物和其他海洋物种的生物学和遗传改良提供宝贵的资源。生物通 www.ebiotrade.com 不同于许多的哺乳动物和社会性昆虫,牡蛎以及许多其他的海洋无脊椎动物已知是高度多态性的,基于当前的策略进行从头组装是一个挑战。在这项研究中,研究人员采用短读(short reads)结合“分而治之”的fosmid合并策略测序并组装了太平洋牡蛎基因组。这是深圳华大基因研究院开发的一种新方法,可用于研究具有高水平杂合性和/或重复序列的基因组。经过数据处理,组装牡蛎基因组大约为559Mb,总共有大约28,000个基因。生物通 www.ebiotrade.com G. Zhang, et al., “The oyster genome reveals stress adaptation and complexity of shell formation,” Nature, doi: 10.1038/nature11413, 2012.生物通 www.ebiotrade.com 5.栽培稻生物通 www.ebiotrade.com 来自中科院上海生命科学研究院、日本国立遗传学研究所和中国农业科学院的研究人员通过绘制水稻基因组变异图谱揭示栽培稻(cultivated rice)的起源。生物通 www.ebiotrade.com 栽培稻是在全球广泛种植,作为人类营养源最重要的谷物之一,被认为是数千年前由普通野生稻(Oryza rufipogon)驯化而成。普通栽培稻(O. sativa)和普通野生稻之间在广泛的形态学和生理性状上显示出差异。尽管水稻是一种重要的谷类和植物生物学模型系统,对于栽培稻的进化起源和驯化过程长期以来受到争论。生物通 www.ebiotrade.com 在这篇文章中,研究人员获得了来自446个地理上不同的普通野生稻和1,083个栽培籼稻和粳稻品种的基因组序列,构建出了一个全面的水稻基因组变异图谱。在搜索选择标记的过程中,研究人员确定了55个在驯化过程中发生的选择性清除(selective sweep)。对于驯化清除和全基因组模式的深入分析揭示粳稻是大约在华南的珠江中部地区首先从普通野生稻的一个特殊物种驯化而成,籼稻是随后由粳稻与当地野生稻杂交形成,作为最初的栽培种传播到东南亚和南亚。这些驯化相关的性状通过高分辨率遗传图谱获得了分析。生物通 www.ebiotrade.com 新研究为水稻育种提供了一个重要的资源,并为作物驯化研究提供了有效的基因组学方法。生物通 www.ebiotrade.com X. Huang, et al., “A map of rice genome variation reveals the origin of cultivated rice.” Nature, doi: 10.1038/nature11532, 2012.
个人分类: 组装|2648 次阅读|1 个评论
R语言:Project Euler Problem 12
itellin 2012-9-12 20:33
The sequence of triangle numbers is generated by adding the natural numbers. So the 7 th triangle number would be 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. The first ten terms would be: 1, 3, 6, 10, 15, 21, 28, 36, 45, 55, ... Let us list the factors of the first seven triangle numbers: 1 : 1 3 : 1,3 6 : 1,2,3,6 10 : 1,2,5,10 15 : 1,3,5,15 21 : 1,3,7,21 28 : 1,2,4,7,14,28 We can see that 28 is the first triangle number to have over five divisors. What is the value of the first triangle number to have over five hundred divisors? # 计算因子 PrimeFactor - function(x, prime = prime) { m - length(prime) fac.count - numeric(m) names(fac.count) - prime # actually, a primality check could insert here for (i in 1:m) { prime.num - prime while (x %% prime.num == 0) { fac.count - fac.count + 1 x = x / prime.num } while (x == 1) break } return(fac.count) } prime - c(2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97) # 产生三角数并计算素数因子 i - 1 div.count - 0 while (div.count = 500) { triangle - i * (i + 1) / 2 fac - PrimeFactor(triangle, prime) div.count - prod(fac + 1) i - i + 1 } cat("第一个拥有超过500个约数的三角形数是:", triangle, "\n") 第一个拥有超过500个约数的三角形数是: 76576500
2107 次阅读|0 个评论
[转载]科学网—[转载]转载PAML使用介绍
beihaiyufu 2012-2-19 08:31
转载PAML使用介绍 已有 140 次阅读 2012-1-10 10:58 | 系统分类: 科研笔记 | 关键词:class 核苷酸 sequence convert medium 来自【http://www.cnblogs.com/ace9/archive/2011/04/29/2032717.html】 PAML软件的一些简单的具体的使用操作 1. 首先用Clustal X进行序列比对:要保证:保证核苷酸序列是三的倍数,没有终止密码子,核苷酸序列的第一位是密码子的第一位。假设序列名为cox1.fas 2. 使用DAMBE软件进行转换成PML格式。 打开要换换的文件,然后“file” “save and convert sequence format”,在保存类型中选择“Yang’s PAML”。那么此时的序列名为“cox1.PML”, 这样就可以得到文件“*.PML”,然后就直接把后缀改成“*.nuc”。那么此时的序列名为“cox1.nuc” 这样就完成了文件格式的转换。 3. 打开PAML软件的文件夹,找到文件名是“bin”的文件夹,打开之后,找到程序“codeml.exe”,把该程序复制到D盘的根目录下。(这一步并不是必要的,只是要把用到的几个程序放在同一个目录下) 4. 在你使用ClustalX进行序列比对的时候,会生成一棵进化树,适用treeview软件可以打开,你需要的是把文件的后缀名改称“*.trees”。即树的文件名是“cox1.trees”,这就完成了树的格式的转换。 5. 然后再PAML4的文件夹中找到一个后缀是“*.ctl”的文件,把文件名改成“cox1.ctl”,复制到和“codeml.exe”相同的地方。 6. 要对codeml.ctl文件中的各个选项的值进行修改,具体内容如下: seqfile = cox1.nuc 按你自己的文件名进行修改,就可以了, treefile = cox1.trees outfile = mlc * main result file name , noisy = 9 * 0,1,2,3,9: how much rubbish on the screen , verbose = 0 * 0: concise; 1: detailed, 2: too much runmode = 0 seqtype = 1 * 1:codons; 2:AAs; 3:codons--AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 aaDist = 0 * 0:equal, +:geometric; -:linear, 1-6:G1974,Miyata,c,p,v,a aaRatefile = wag.dat * only used for aa seqs with model=empirical(_F) * dayhoff.dat,jones.dat,wag.dat,am.dat, or your own model = 0,这是使用的最简单的模型, * models for codons: * 0:one, 1:b, 2:2 or more dN/dS ratios for branches * models for AAs or codon-translated AAs: * 0:poisson, 1:proportional, 2:Empirical, 3:Empirical+F 28 * 6:FromCodon, 7:AAClasses, 8:REVaa_0,9:REVaa(nr=189) NSsites = 0 3 1 2 7 8 ,依次选取了6个模型。也可以选其中的两个,但必须是0和3,1和2,7和8。相互配对 icode = 4 * 0:universal code; 1:mammalian mt; 2-10:see below如果是核基因的话就选0。 fix_kappa = 0 kappa = 5 fix_omega = 0 omega = 0.2 getSE = 0 RateAncestor = 0 Small_Diff = .5e-6 cleandata = 1 * remove sites with ambiguity data (1:yes, 0:no)? method = 0 * 0: simultaneous; 1: one branch at a time 最后保证在同一个文件夹内同时具有:三个文件“codeml.exe”,“cox1.nuc”“cox1.trees”,这时候你双击 codeml.exe,就可以运行程序。 如果不能正确运行的话,你可以通过运行cmd,在dos情况下,运行codeml.exe,这样会有错误提示,知道你错在哪里了。 常见命令解释: 1. Baseml.ctl的命令说明: noisy用来控制输出结果的多少,如果模型适用的运算比较多的话,noisy的值可以选择的比较大,verbose可以控制结果文件中结果的多少。 runmode = 0 表明在树的结构文件中估算树的拓扑结构。这个选项是我们通常情况下选择的,基本上可以满足我们的需要。 Runmode = 1 or 2 表明通过星状-分解算法来进行启发式搜索树。Runmode = 2 这种算法是从星状树开始搜索,而runmode =1 则表明软件读取多歧树是从树的结构文件中,并且同过比较去估计最佳二歧树。 runmode = 3 表明是逐步增加的。runmode = 4 通过简约法来搜索具有NNI perturbation的起始树。runmode = 5 表明从树的结构文件中来读取NNI perturbation with 起始树。 Model 0,1,…,8 分别代表以下模型:JC69, K80, F81, F84, HKY85, T92, TN93, REV( also know as GTR), and UNREST。 Mgene 用于和序列数据文件中的option G进行联合,用于多个基因和多个位点的联合分析。如果不使用option G的话,则选择0。 ndata 用于指定文件中的分隔的数据集的数目。它的变化被用于模拟,你可以使用evolver来产生200个复制数据集,这是设置ndata = 200,然后用baseml进行分析。 clock 用于指定谱系之间速率恒定或变化的模型。Clock = 0,意味着整棵树中,不同分支之间不存在clock现象;Clock = 1,意味着global clock,所有的分支具有相同的进化速率;clock = 2 意味着local clock,所有分支之间的进化速率被分成几个部分;clock = 3意味着多个基因或多重分隔数据,允许分支的进化速率以不同的方式变化。;; 2. Codeml.ctl的使用说明: CodonFreq 用于平衡密码子替换模型中的密码子使用频率。Codonfreq = 0 说明每种密码子的使用频率是相同的;codonfreq = 1 说明是从平均核苷酸频率中计算出来的;codonfreq = 2说明是从三个密码子位置的平均核苷酸频率得来的;codonfreq = 3则使用了三个参数。Codonfreq = 0,1,2和3 所代表的模型中使用的参数的数目分别为:0,3,9,60。 aadist用于指定氨基酸距离是否是相同的(= 0),还是属于Grantham’s matrix(= 1)。 runmode = -2 执行ML方法来推测蛋白序列两两之间的dn和ds。 model 用于估计各个分支之间的w值。 Model = 0,表明所有的谱系具有一个w比率(one w ratio);model = 1,每一支具有一个速率(free-ratio);model = 2 表明速率的任意数字。 NSsites 主要是用于指定模型允许dn/ds(w)在不同的位点之间变化。NSsites = m 表明对应于 model = m。变化的 ncatG被用来指定在一些特定的模型下的w分布的类型的数目。NcatG的值被用于执行一下分析:paper are 3 for M3 (discrete), 5 for M4 (freq), 10 for the continuous distributions (M5 gamma, M6: 2gamma, M7: beta, M8:betaw, M9:betagamma, M10: betagamma+1, M11:betanormal1, and M12:02normal1, M13:3normal0). This means M8 will have 11 site classes (10 from the beta distribution plus 1 additional class) 。通过NSsites可以同时执行多个模型,例如:NSsites = 0 1 2 3 7 8,的意思就是同时执行M0,M1,M2a,M3,M7,和M8。作者建议:使用M1a和M2a来重建LRT,使用M7和M8来重建LRT,使用M2a和 M8来鉴别受到正选择的位点。 icode 用来更改所选序列的遗传密码子,以期得到更加准确的结果。 RateAncestor = 1 表明你想重建原始序列,如果 RateAncestor = 0 说明你将避免这个计算。不过使用效果并不明显,还需要进一步研究如何使用。 PAML使用中最重要的就是模型的选择: PAML中所有的模型都在baseml和codeml这两个程序中使用。这两个程序是最大似然程序,它们使用数值优化算法来最大化对数似然值。这些模型最大的用途就是适用likelihood ratio test(似然比率检验)来检测有趣的生物学假设。这些模型是在Baseml中使用的,软件中常用的数学模型有:JC69(Jukes and Cantor 1969),K80(Kimura 1980),F81(Felsenstein 1981),F84(Felsenstein 1984),HKY85(Hasegawa 1984,1985),Tamura(1992),Tamura and Nei(1993),and REV,also know as GTR for general-time-reversible(Yang 1994)。 模型的一般遵循以下假设: 1. 在不同的谱系中替换是独立发生的。 2. 在不同的位点中替换也是独立发生的。 3. 替换的过程我们通过时间均匀马尔科夫过程(time-homogeneous Markov process)。 常用的两种检测方法: 1. Maximum likelihood estimates(MLEs):观测到的数据X的概率(probability),当做为一个未知参数θ的函数的时候,就叫做似然函数(likelihood function):L (θ:∣X) = f(θ∣X)。根据似然规则(likelihood principle),似然函数包括数据中关于参数θ所有的信息。参数θ的最佳点估计(optimal point estimate)可以通过最大化似然L的θ值或l(θ;X)的似然对数进行估计。并且,似然曲线可以为未确定的点估计提供信息。 2. Likelihood ratio tests (LRTs):假设一个简单模型或无效模型(simpler or null model)有一个参数 p0,更通用的模型或可选择的模型(general or alternative model)有一个参数p1,两个模型的最佳似然值分别为l0和l1。那么对数似然值差异(log likelihood difference)的两倍是:2△l = 2(l1 - l0),如果无效模型(null model)成立的话,那么对数似然值差异的二倍将与自由度是d.f. = p1- p0的卡方分布具有渐进关系(asymptotically)。因此,对数似然值差异的二倍的检验统计可以通过比较卡方分布来检验无效模型(null model)是否拒绝备择模型(alternative model)。 所谓Likelihood ratio test(似然比率检测)是用来检验两个模型的。 离散伽玛模型(discrete-gamma model)允许不同位点具有不同的变化速率。 Baseml中有核苷酸替换模型,Codeml中有不同位点替换速率变化的模型。 1. 作者在Codeml中进行比较的两个模型比较有:M1a(Nearly Neutral)和M2a(Positive Selection);M7(beta)和M8(betaω)。 2. 作者认为M3对于正选择的LRT检测并不是十分适合,并不推荐适用M3模型。 使用似然比率检测可以验证正选择(Testing positive selection using the likelihood ratio test)。作者推荐使用二到三种LRT来验证正选择。第一个检测是比较M1a和M2a, 第二个检测是比较M7和M8。 Gamma分布中形状参数所表示的含义: 1. α> 1,大多数位点的替换速率在1附近,但有少数位点具有比较高或比较低的替换速率。曲线形状为 bell-shaped . 2. α→∞,表明所有的位点具有一个相同速率。 3. α ≤ 1,表明大部分位点的替换速率比较低,或接近于不变,可是有一些位点具有比较高的替换速率。曲线形状为 L-shape。 PAML的一个重要功能就是检测基因是否受到正选择,即适应性选择。但是现在用于估计适应性选择的方法,忽略了氨基酸的化学性质,这样得出的结果是不准确的,作者表示,直接通过dn和ds的比较来确定受到什么样的选择压力,是不准确的。 PAML中的无效模型(null model)是指不允许任何位点的ω值大于1,如果null model成立,则w小于1,基因受到负选择;如果null model不成立,则w大于1,基因受到正选择。研究表明,通过比较两个点模型,而得到的结果尤其可靠。 Ancestral reconstruction 为探索数据提供了一个直观的方法,他被用于大量的数据分析,例如,评估不同谱系中的选择压力。但是由于这种方法的简单和直观,会产生很多错误。大多数重建原始序列的工作都忽略了这样一个事实,即使用假数据(pseudo-data)代替真实观察到的数据(real observed data),并且仅仅使用处于最佳状态(optimal character states)的一些特征,而忽略未处于最佳状态(suboptimal states)的一些特征,从而产生一些系统上的偏差(systematic biases)。如果数据中的ds区域饱和的话,那么会导致我们低估ds,从而使dn/ds的值偏高,即 ω的值偏高。进化距离估计中有关序列间隔的处理进化距离估计中,排列时的间隔导致了某些复杂的问题。同时,由于实验上的原因,也可能出现丧失信息的位点。在距离估计中,一般忽略这些位点,可用两种不同的方法来进行处理。一种方法是从数据分析中删除这些位点,称为完全删除(complete deletion)。一般来说,这种方法较好,因为DNA或氨基酸序列的不同区段往往具有不同的演变规律。然而在所研究的序列中,间隔不大或者是随机分布的,则可计算每个配对序列间的距离,并只忽略两个配对序列间的那些间隔。这种方法称为成对删除(pairwise deletion)。这个过程在PAML中可以通过cleandata = 0 或1。使用PAML进行数据分析的时候,所选用的序列越多,则得到的结果越可靠。一般应该大于17条序列,此外影响LRT检验结果好坏的因素还有:序列长度(sequence length)、序列分异度(sequence divergence)和正选择的强度(the strength of positive selection )(Anisimova, Bielawski et al. 2001; Opazo, Palma et al. 2005)。 还有使用PAML进行序列分析的时候必须检验序列是否发生过重排,可以使用的软件由PLATO 2.0,HYPHY等软件(Pond, Frost et al. 2005; Kosakovsky Pond, Posada et al. 2006; Petersen, Bollback et al. 2007)。如果是检测序列受到的选择压力的话,那么序列大于50codons即可,但是这些序列对于系统进化分析可能得到的结果不可靠(Pie 2006)。 物种的基因只有在受到正选择作用才能不断的适应环境的变化,所以正选择在物种进化中起到了非常重要的作用(Vallender and Lahn 2004)。 PAML中常用的模型有以下几个: 1. M0,所有的谱系具有相同的ω0值。 2. M3,discrete,它的位点具有三个离散类(discrete classes),并且具有不同的ω0。 3. M1a,nearly neutral model,允许两个位点分类,0< ω0 <1 或ω>1。 4. M2a,selection,具有一个额外的位点分类ω>1。 5. M7,beta,ω<1,具有额外10个位点分类。 6. M8,ω>1,具有额外11个位点分类。 其中可以用于检验正选择的模型是M2a,M3和M8,得到了结果之后,我们可以再使用NEB(nave empirical)和BEB(bayes empirical )进行验证,通过后验概率,一般应该大于0.95。 PAML软件的模型中需要考虑的问题是: 1. 遗传密码子的结构。 2. 转换和颠换的比值。 3. 密码子不同位置的速率。 PAML操作中存在的问题: 1. 在codeml中,runmode是不是通常选择0,如果选择-2的话,就是使用ML法进行计算蛋白序列两两之间的dn和ds?那核苷酸序列可以吗? 2. model,通常下,我选的为0,意思是所有的谱系具有一个相同的ω值,这个在分析的时候怎么选择?如何检测各个谱系之间的ω的差异? 3. 对于NSsites的话,如果要进行两个模型之间比较,同时选择两个模型是否可以? 4. 例如,我要比较M0和M3,那么在NSsites = 0 3。这样选择,在结果中计算的是这两个不同模型下的结果,还是进行的两个模型的比较?如果进行比较,是否需要分别计算出各个模型的lnL值,在使用chi程序进行两两比较? 5. 其余还有什么关键性的参数? 6. 还有运算量大不大?一般的512M内存,3.0G的计算机能运行完吗? 7. 这个提示是什么意思?model should be 0 in the batch run?. 如何重建基因家族中的原始序列(Ancestral sequence)? PAML软件中的序列处理: 1. 如果序列之间的分异度比较明显的话,那么需要4-5条序列;如果有10条序列的话,效果会比较好;如果序列数大于20,那么得到的结果就会比较可靠。当然这也和序列之间的分异度有比较密切的联系。 2. 最佳序列分异取决于序列的数目,如果树比较大的话,则可以容忍更多的变异。一般情况下,如果总共的ds的距离大于0.5,那么就认为这种方法是合理的。 3. 一般情况下,软件可以鉴别出一到两个位点受到较强的选择压力,但是有可能一些位点受到了选择压力,但比较弱,这是LRT方法会告诉你,这个位点存在选择压力,但是对于鉴别出,比较麻烦。 4. 一般情况下,使用简单模型和复杂模型得出的结果应该是一致的。所以,M0作为比较简单的模型,使用它得出的枝长、K以及w值应该和其他复杂模型得出的结果是一致的。 5. 如果比对的序列是高度相似或高度分异的话,我们应该执行程序两遍。 6. 如果使用NSsites执行多个模型,ncatG的参数也需要重新设置。 7. 在计算过程中,序列的饱和性并不是一个主要的问题,一般较高的序列分异会带来更多的问题,不同的序列之中会具有不同的密码子使用偏好性和核苷酸组成。 8. 计算出来的w值是不能为负值的。 9. 现在已经找到,lnL的值在rst文件中,但是每个位点的w值,在什么地方呢?即使找到了相关的参数,那么接下来再如何分析呢? 10. 在进行序列分析的时候,要把编码序列末端的终止密码子去掉,以防止出现误差。 PAML中用到的进化树的格式: A tree structure file is used when runmode = 0 or 1. The file name is specified in the appropriate control file. The tree topology is typically specified using the parenthesis notation (括号标序法), although it is possible to use a branch representation, as described below. Parenthesis notation. The first is the familiar parenthesis representation, used in most phylogenetic software. The species can be represented using either their names or their indexes corresponding to the order of their occurrences in the sequence data file. If species names are used, they have to match exactly those in the sequence data file (including spaces or strange characters). Branch lengths are allowed. The following is a possible tree structure file for a data set of four species (human, chimpanzee, gorilla, and orangutan, occurring in this order in data file). The first tree is a star tree, while the next four trees are the same. If the tree has branch lengths, baseml and codeml allow you to use the branch lengths in the tree as starting values for maximum likelihood iteration. Whether you should use rooted or unrooted trees depends on the model, for example, on whether a molecular clock is assumed. Without the clock (clock = 0), unrooted trees should be used, such as ((1,2),3,4) or (1,2,(3,4)). With the clock or local-clock models, the trees should be rooted and these two trees are different and both are different from (((1,2),3),4). In PAML, a rooted tree has a bifurcation at the root, while an unrooted tree has a trifurcation or multifurcation at the root. Tree files produced by PAUP and MacClade. PAML programs have only limited compatibility with the tree file generated by PAUP or MacClade. First the “ ” notation for specifying an unrooted tree is ignored. For the tree to be accepted as an unrooted tree by PAML, you have to manually modify the tree file so that there is a trifurcation at the root, for example, by changing “(((1,2),3),4)” into ”((1,2),3,4)”. Second, the “Translate” keyword is ignored by PAML as well, and it is assumed that the ordering of the sequences in the tree file is exactly the same as the ordering of the sequences in the sequence data file. Branch or node labels. Some models implemented in baseml and codeml allow several groups of branched on the tree, which are assigned different parameters of interest. For example, in the local clock models (clock = 2 or 3) in baseml or codeml, you can have, say, 3 branch rate groups, with low, medium, and high rates respectively. Also the branch-specific codon models (model = 2 or 3 for codonml) allow different branch groups to have different ωs, leading to so called “two-ratios” and “three-ratios” models. All those models require branches or nodes in the tree to be labeled. Branch labels are specified in the same way as branch lengths except that the symbol “#” is used rather than “:”. The branch labels are consecutive integers starting from 0, which is the default and does not have to be specified.
2846 次阅读|0 个评论
2004Pulse stream and pulse sequence
lcj2212916 2012-1-29 23:36
共22页。 网盘直接下载地址: http://www.ctdisk.com/file/4386005 论坛下载地址: http://radarew.5d6d.com/thread-625-1-1.html
1948 次阅读|0 个评论
[转载]转载PAML使用介绍
grantlujiang 2012-1-10 10:58
来自【http://www.cnblogs.com/ace9/archive/2011/04/29/2032717.html】 PAML软件的一些简单的具体的使用操作 1. 首先用Clustal X进行序列比对:要保证:保证核苷酸序列是三的倍数,没有终止密码子,核苷酸序列的第一位是密码子的第一位。假设序列名为cox1.fas 2. 使用DAMBE软件进行转换成PML格式。 打开要换换的文件,然后“file” “save and convert sequence format”,在保存类型中选择“Yang’s PAML”。那么此时的序列名为“cox1.PML”, 这样就可以得到文件“*.PML”,然后就直接把后缀改成“*.nuc”。那么此时的序列名为“cox1.nuc” 这样就完成了文件格式的转换。 3. 打开PAML软件的文件夹,找到文件名是“bin”的文件夹,打开之后,找到程序“codeml.exe”,把该程序复制到D盘的根目录下。(这一步并不是必要的,只是要把用到的几个程序放在同一个目录下) 4. 在你使用ClustalX进行序列比对的时候,会生成一棵进化树,适用treeview软件可以打开,你需要的是把文件的后缀名改称“*.trees”。即树的文件名是“cox1.trees”,这就完成了树的格式的转换。 5. 然后再PAML4的文件夹中找到一个后缀是“*.ctl”的文件,把文件名改成“cox1.ctl”,复制到和“codeml.exe”相同的地方。 6. 要对codeml.ctl文件中的各个选项的值进行修改,具体内容如下: seqfile = cox1.nuc 按你自己的文件名进行修改,就可以了, treefile = cox1.trees outfile = mlc * main result file name , noisy = 9 * 0,1,2,3,9: how much rubbish on the screen , verbose = 0 * 0: concise; 1: detailed, 2: too much runmode = 0 seqtype = 1 * 1:codons; 2:AAs; 3:codons--AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 aaDist = 0 * 0:equal, +:geometric; -:linear, 1-6:G1974,Miyata,c,p,v,a aaRatefile = wag.dat * only used for aa seqs with model=empirical(_F) * dayhoff.dat,jones.dat,wag.dat,am.dat, or your own model = 0,这是使用的最简单的模型, * models for codons: * 0:one, 1:b, 2:2 or more dN/dS ratios for branches * models for AAs or codon-translated AAs: * 0:poisson, 1:proportional, 2:Empirical, 3:Empirical+F 28 * 6:FromCodon, 7:AAClasses, 8:REVaa_0,9:REVaa(nr=189) NSsites = 0 3 1 2 7 8 ,依次选取了6个模型。也可以选其中的两个,但必须是0和3,1和2,7和8。相互配对 icode = 4 * 0:universal code; 1:mammalian mt; 2-10:see below如果是核基因的话就选0。 fix_kappa = 0 kappa = 5 fix_omega = 0 omega = 0.2 getSE = 0 RateAncestor = 0 Small_Diff = .5e-6 cleandata = 1 * remove sites with ambiguity data (1:yes, 0:no)? method = 0 * 0: simultaneous; 1: one branch at a time 最后保证在同一个文件夹内同时具有:三个文件“codeml.exe”,“cox1.nuc”“cox1.trees”,这时候你双击 codeml.exe,就可以运行程序。 如果不能正确运行的话,你可以通过运行cmd,在dos情况下,运行codeml.exe,这样会有错误提示,知道你错在哪里了。 常见命令解释: 1. Baseml.ctl的命令说明: noisy用来控制输出结果的多少,如果模型适用的运算比较多的话,noisy的值可以选择的比较大,verbose可以控制结果文件中结果的多少。 runmode = 0 表明在树的结构文件中估算树的拓扑结构。这个选项是我们通常情况下选择的,基本上可以满足我们的需要。 Runmode = 1 or 2 表明通过星状-分解算法来进行启发式搜索树。Runmode = 2 这种算法是从星状树开始搜索,而runmode =1 则表明软件读取多歧树是从树的结构文件中,并且同过比较去估计最佳二歧树。 runmode = 3 表明是逐步增加的。runmode = 4 通过简约法来搜索具有NNI perturbation的起始树。runmode = 5 表明从树的结构文件中来读取NNI perturbation with 起始树。 Model 0,1,…,8 分别代表以下模型:JC69, K80, F81, F84, HKY85, T92, TN93, REV( also know as GTR), and UNREST。 Mgene 用于和序列数据文件中的option G进行联合,用于多个基因和多个位点的联合分析。如果不使用option G的话,则选择0。 ndata 用于指定文件中的分隔的数据集的数目。它的变化被用于模拟,你可以使用evolver来产生200个复制数据集,这是设置ndata = 200,然后用baseml进行分析。 clock 用于指定谱系之间速率恒定或变化的模型。Clock = 0,意味着整棵树中,不同分支之间不存在clock现象;Clock = 1,意味着global clock,所有的分支具有相同的进化速率;clock = 2 意味着local clock,所有分支之间的进化速率被分成几个部分;clock = 3意味着多个基因或多重分隔数据,允许分支的进化速率以不同的方式变化。;; 2. Codeml.ctl的使用说明: CodonFreq 用于平衡密码子替换模型中的密码子使用频率。Codonfreq = 0 说明每种密码子的使用频率是相同的;codonfreq = 1 说明是从平均核苷酸频率中计算出来的;codonfreq = 2说明是从三个密码子位置的平均核苷酸频率得来的;codonfreq = 3则使用了三个参数。Codonfreq = 0,1,2和3 所代表的模型中使用的参数的数目分别为:0,3,9,60。 aadist用于指定氨基酸距离是否是相同的(= 0),还是属于Grantham’s matrix(= 1)。 runmode = -2 执行ML方法来推测蛋白序列两两之间的dn和ds。 model 用于估计各个分支之间的w值。 Model = 0,表明所有的谱系具有一个w比率(one w ratio);model = 1,每一支具有一个速率(free-ratio);model = 2 表明速率的任意数字。 NSsites 主要是用于指定模型允许dn/ds(w)在不同的位点之间变化。NSsites = m 表明对应于 model = m。变化的 ncatG被用来指定在一些特定的模型下的w分布的类型的数目。NcatG的值被用于执行一下分析:paper are 3 for M3 (discrete), 5 for M4 (freq), 10 for the continuous distributions (M5 gamma, M6: 2gamma, M7: beta, M8:betaw, M9:betagamma, M10: betagamma+1, M11:betanormal1, and M12:02normal1, M13:3normal0). This means M8 will have 11 site classes (10 from the beta distribution plus 1 additional class) 。通过NSsites可以同时执行多个模型,例如:NSsites = 0 1 2 3 7 8,的意思就是同时执行M0,M1,M2a,M3,M7,和M8。作者建议:使用M1a和M2a来重建LRT,使用M7和M8来重建LRT,使用M2a和 M8来鉴别受到正选择的位点。 icode 用来更改所选序列的遗传密码子,以期得到更加准确的结果。 RateAncestor = 1 表明你想重建原始序列,如果 RateAncestor = 0 说明你将避免这个计算。不过使用效果并不明显,还需要进一步研究如何使用。 PAML使用中最重要的就是模型的选择: PAML中所有的模型都在baseml和codeml这两个程序中使用。这两个程序是最大似然程序,它们使用数值优化算法来最大化对数似然值。这些模型最 大的用途就是适用likelihood ratio test(似然比率检验)来检测有趣的生物学假设。这些模型是在Baseml中使用的,软件中常用的数学模型有:JC69(Jukes and Cantor 1969),K80(Kimura 1980),F81(Felsenstein 1981),F84(Felsenstein 1984),HKY85(Hasegawa 1984,1985),Tamura(1992),Tamura and Nei(1993),and REV,also know as GTR for general-time-reversible(Yang 1994)。 模型的一般遵循以下假设: 1. 在不同的谱系中替换是独立发生的。 2. 在不同的位点中替换也是独立发生的。 3. 替换的过程我们通过时间均匀马尔科夫过程(time-homogeneous Markov process)。 常用的两种检测方法: 1. Maximum likelihood estimates(MLEs):观测到的数据X的概率(probability),当做为一个未知参数θ的函数的时候,就叫做似然函数 (likelihood function):L (θ:∣X) = f(θ∣X)。根据似然规则(likelihood principle),似然函数包括数据中关于参数θ所有的信息。参数θ的最佳点估计(optimal point estimate)可以通过最大化似然L的θ值或l(θ;X)的似然对数进行估计。并且,似然曲线可以为未确定的点估计提供信息。 2. Likelihood ratio tests (LRTs):假设一个简单模型或无效模型(simpler or null model)有一个参数 p0,更通用的模型或可选择的模型(general or alternative model)有一个参数p1,两个模型的最佳似然值分别为l0和l1。那么对数似然值差异(log likelihood difference)的两倍是:2△l = 2(l1 - l0),如果无效模型(null model)成立的话,那么对数似然值差异的二倍将与自由度是d.f. = p1- p0的卡方分布具有渐进关系(asymptotically)。因此,对数似然值差异的二倍的检验统计可以通过比较卡方分布来检验无效模型(null model)是否拒绝备择模型(alternative model)。 所谓Likelihood ratio test(似然比率检测)是用来检验两个模型的。 离散伽玛模型(discrete-gamma model)允许不同位点具有不同的变化速率。 Baseml中有核苷酸替换模型,Codeml中有不同位点替换速率变化的模型。 1. 作者在Codeml中进行比较的两个模型比较有:M1a(Nearly Neutral)和M2a(Positive Selection);M7(beta)和M8(betaω)。 2. 作者认为M3对于正选择的LRT检测并不是十分适合,并不推荐适用M3模型。 使用似然比率检测可以验证正选择(Testing positive selection using the likelihood ratio test)。作者推荐使用二到三种LRT来验证正选择。第一个检测是比较M1a和M2a, 第二个检测是比较M7和M8。 Gamma分布中形状参数所表示的含义: 1. α> 1,大多数位点的替换速率在1附近,但有少数位点具有比较高或比较低的替换速率。曲线形状为 bell-shaped . 2. α→∞,表明所有的位点具有一个相同速率。 3. α ≤ 1,表明大部分位点的替换速率比较低,或接近于不变,可是有一些位点具有比较高的替换速率。曲线形状为 L-shape。 PAML的一个重要功能就是检测基因是否受到正选择, 即适应性选择。但是现在用于估计适应性选择的方法,忽略了氨基酸的化学性质,这样得出的结果是不准确的,作者表示,直接通过dn和ds的比较来确定受到什 么样的选择压力,是不准确的。 PAML中的无效模型(null model)是指不允许任何位点的ω值大于1,如果null model成立,则w小于1,基因受到负选择;如果null model不成立,则w大于1,基因受到正选择。研究表明,通过比较两个点模型,而得到的结果尤其可靠。 Ancestral reconstruction 为探索数据提供了一个直观的方法,他被用于大量的数据分析,例如,评估不同谱系中的选择压力。但是由于这种方法的简单和直观,会产生很多错误。大多数重建 原始序列的工作都忽略了这样一个事实,即使用假数据(pseudo-data)代替真实观察到的数据(real observed data),并且仅仅使用处于最佳状态(optimal character states)的一些特征,而忽略未处于最佳状态(suboptimal states)的一些特征,从而产生一些系统上的偏差(systematic biases)。如果数据中的ds区域饱和的话,那么会导致我们低估ds,从而使dn/ds的值偏高,即 ω的值偏高。进化距离估计中有关序列间隔的处理进化距离估计中,排列时的间隔导致了某些复杂的问题。同时,由于实验上的原因,也可能出现丧失信息的位点。 在距离估计中,一般忽略这些位点,可用两种不同的方法来进行处理。一种方法是从数据分析中删除这些位点,称为完全删除(complete deletion)。一般来说,这种方法较好,因为DNA或氨基酸序列的不同区段往往具有不同的演变规律。然而在所研究的序列中,间隔不大或者是随机分布 的,则可计算每个配对序列间的距离,并只忽略两个配对序列间的那些间隔。这种方法称为成对删除(pairwise deletion)。这个过程在PAML中可以通过cleandata = 0 或1。使用PAML进行数据分析的时候,所选用的序列越多,则得到的结果越可靠。一般应该大于17条序列,此外影响LRT检验结果好坏的因素还有:序列长 度(sequence length)、序列分异度(sequence divergence)和正选择的强度(the strength of positive selection )(Anisimova, Bielawski et al. 2001; Opazo, Palma et al. 2005)。 还有使用PAML进行序列分析的时候必须检验序列是否发生过重排,可以使用的软件由PLATO 2.0,HYPHY等软件(Pond, Frost et al. 2005; Kosakovsky Pond, Posada et al. 2006; Petersen, Bollback et al. 2007)。如果是检测序列受到的选择压力的话,那么序列大于50codons即可,但是这些序列对于系统进化分析可能得到的结果不可靠(Pie 2006)。 物种的基因只有在受到正选择作用才能不断的适应环境的变化,所以正选择在物种进化中起到了非常重要的作用(Vallender and Lahn 2004)。 PAML中常用的模型有以下几个: 1. M0,所有的谱系具有相同的ω0值。 2. M3,discrete,它的位点具有三个离散类(discrete classes),并且具有不同的ω0。 3. M1a,nearly neutral model,允许两个位点分类,0< ω0 <1 或ω>1。 4. M2a,selection,具有一个额外的位点分类ω>1。 5. M7,beta,ω<1,具有额外10个位点分类。 6. M8,ω>1,具有额外11个位点分类。 其中可以用于检验正选择的模型是M2a,M3和M8,得到了结果之后,我们可以再使用NEB(naïve empirical)和BEB(bayes empirical )进行验证,通过后验概率,一般应该大于0.95。 PAML软件的模型中需要考虑的问题是: 1. 遗传密码子的结构。 2. 转换和颠换的比值。 3. 密码子不同位置的速率。 PAML操作中存在的问题: 1. 在codeml中,runmode是不是通常选择0,如果选择-2的话,就是使用ML法进行计算蛋白序列两两之间的dn和ds?那核苷酸序列可以吗? 2. model,通常下,我选的为0,意思是所有的谱系具有一个相同的ω值,这个在分析的时候怎么选择?如何检测各个谱系之间的ω的差异? 3. 对于NSsites的话,如果要进行两个模型之间比较,同时选择两个模型是否可以? 4. 例如,我要比较M0和M3,那么在NSsites = 0 3。这样选择,在结果中计算的是这两个不同模型下的结果,还是进行的两个模型的比较?如果进行比较,是否需要分别计算出各个模型的lnL值,在使用chi程序进行两两比较? 5. 其余还有什么关键性的参数? 6. 还有运算量大不大?一般的512M内存,3.0G的计算机能运行完吗? 7. 这个提示是什么意思?model should be 0 in the batch run?. 如何重建基因家族中的原始序列(Ancestral sequence)? PAML软件中的序列处理: 1. 如果序列之间的分异度比较明显的话,那么需要4-5条序列;如果有10条序列的话,效果会比较好;如果序列数大于20,那么得到的结果就会比较可靠。当然 这也和序列之间的分异度有比较密切的联系。 2. 最佳序列分异取决于序列的数目,如果树比较大的话,则可以容忍更多的变异。一般情况下,如果总共的ds的距离大于0.5,那么就认为这种方法是合理的。 3. 一般情况下,软件可以鉴别出一到两个位点受到较强的选择压力,但是有可能一些位点受到了选择压力,但比较弱,这是LRT方法会告诉你,这个位点存在选择压 力,但是对于鉴别出,比较麻烦。 4. 一般情况下,使用简单模型和复杂模型得出的结果应该是一致的。所以,M0作为比较简单的模型,使用它得出的枝长、K以及w值应该和其他复杂模型得出的结果 是一致的。 5. 如果比对的序列是高度相似或高度分异的话,我们应该执行程序两遍。 6. 如果使用NSsites执行多个模型,ncatG的参数也需要重新设置。 7. 在计算过程中,序列的饱和性并不是一个主要的问题,一般较高的序列分异会带来更多的问题,不同的序列之中会具有不同的密码子使用偏好性和核苷酸组成。 8. 计算出来的w值是不能为负值的。 9. 现在已经找到,lnL的值在rst文件中,但是每个位点的w值,在什么地方呢?即使找到了相关的参数,那么接下来再如何分析呢? 10. 在进行序列分析的时候,要把编码序列末端的终止密码子去掉,以防止出现误差。 PAML中用到的进化树的格式: A tree structure file is used when runmode = 0 or 1. The file name is specified in the appropriate control file. The tree topology is typically specified using the parenthesis notation (括号标序法), although it is possible to use a branch representation, as described below. Parenthesis notation. The first is the familiar parenthesis representation, used in most phylogenetic software. The species can be represented using either their names or their indexes corresponding to the order of their occurrences in the sequence data file. If species names are used, they have to match exactly those in the sequence data file (including spaces or strange characters). Branch lengths are allowed. The following is a possible tree structure file for a data set of four species (human, chimpanzee, gorilla, and orangutan, occurring in this order in data file). The first tree is a star tree, while the next four trees are the same. If the tree has branch lengths, baseml and codeml allow you to use the branch lengths in the tree as starting values for maximum likelihood iteration. Whether you should use rooted or unrooted trees depends on the model, for example, on whether a molecular clock is assumed. Without the clock (clock = 0), unrooted trees should be used, such as ((1,2),3,4) or (1,2,(3,4)). With the clock or local-clock models, the trees should be rooted and these two trees are different and both are different from (((1,2),3),4). In PAML, a rooted tree has a bifurcation at the root, while an unrooted tree has a trifurcation or multifurcation at the root. Tree files produced by PAUP and MacClade. PAML programs have only limited compatibility with the tree file generated by PAUP or MacClade. First the “ ” notation for specifying an unrooted tree is ignored. For the tree to be accepted as an unrooted tree by PAML, you have to manually modify the tree file so that there is a trifurcation at the root, for example, by changing “(((1,2),3),4)” into ”((1,2),3,4)”. Second, the “Translate” keyword is ignored by PAML as well, and it is assumed that the ordering of the sequences in the tree file is exactly the same as the ordering of the sequences in the sequence data file. Branch or node labels. Some models implemented in baseml and codeml allow several groups of branched on the tree, which are assigned different parameters of interest. For example, in the local clock models (clock = 2 or 3) in baseml or codeml, you can have, say, 3 branch rate groups, with low, medium, and high rates respectively. Also the branch-specific codon models (model = 2 or 3 for codonml) allow different branch groups to have different ωs, leading to so called “two-ratios” and “three-ratios” models. All those models require branches or nodes in the tree to be labeled. Branch labels are specified in the same way as branch lengths except that the symbol “#” is used rather than “:”. The branch labels are consecutive integers starting from 0, which is the default and does not have to be specified.
12589 次阅读|0 个评论
[转载]Grads 处理 [GRIB] 格式文件的准备
xiaoxinghe 2012-1-7 21:10
Grads 处理 【GRIB】 格式文件的准备 1 开场说明 WHAT IS GRIB? GRIB (GRIdded Binary) is an international, public, binary format for the efficient storage of meteorological/oceanographic variables. Typically, GRIB data c o ns ists of a sequence of 2-D (lon,lat) chunks of a (in most general sense) 4-D variable (e.g., u comp on the wind = f(lon,lat,level,time)). The sequence is commonly organized in files containing all variables at a particular time (i.e., 3-D (lon,lat,level) volume). 大气所的 NCEP再分析资料使用这种格式。 这里针对 6 小时一次的 1°×1°,26 层数据来处理。 Grads中识别路径的方式基本为 Unix的方式,即路径中用斜杠/,而不是反斜杠\,cmd 中也 支持这种方式,所以,使用 Grads及其相关组件时,指定路径用斜杠/会很方便。 Grads 中用!pwd 可以看到当前目录,C:盘对应/cygdrive/c/,d:盘对应/cygdrive/d/。cmd 中用 pwd 看到的也是如此,cygdrive 是怎么来的?与 cygwin 程序有关,它能把 Unix 程序嫁接到 windows 下使用,它的目录系统以/cygdrive/为根目录。 如果 ctl 文件中,数据文件指定不是全路径,而是^,则可以在 open 命令中指定上述形式的 全路径,例如: ga- open /cygdrive/d/data/ncep/grib2006060100.ctl 它等效于: ga- open d:/data/ncep/grib2006060100.ctl 2 生成描述文件 PCGrads 软件的 User’s Guide 中介绍了 GRIB 及其处理方法,但不完全。实际上有两 种方法:1)利用工具 grib2ctl.exe 生成整个文件的描述文件.ctl,再利用工具 gribmap.exe 生 成映射文件.idx;2)利用工具 wgrib.exe 解码文件中需要使用的部分记录,建立新的数据文 件,然后人工建立描述文件.ctl。 为了使用方便,环境变量 Path 中增加 Grads 可执行文件所在目录,则在 cmd 中其他路 径下亦可访问所有该目录下的工具。 2.1 方法 1 使用工具 grib2ctl.exe 生成 GRIB 数据文件的描述文件 ctl,之后还要使用 gribmap 工具 生成映射文件.idx。 1. 工具 grib2ctl.exe 的获得。 查看相关信息: http://www.cpc.ncep.noaa.gov/products/wesley/grib2ctl.html 一般网上得到的是源码文件 grib2ctl.pl。 ftp://ftp.cpc.ncep.noaa.gov/wd51we/wgrib.scripts/grib2ctl.pl grib2ctl.pl 是 perl 语言代码,转换成 exe 格式需要使用 perl2exe 工具。转换的过程还需 要借助 perl 编译器,如 ActivePerl。 perl2exe 工具可从以下网址查看和下载: http://www.indigostar.com/perl2exe.htm http://www.indigostar.com/download/p2x-8.60-Win32.zip ActivePerl 可从以下网址下载: http://ftp.activestate.com/ActivePerl/Windows/5.8/ActivePerl-5.8.6.811-MSWin32-x86-122208.msi ActivePerl 下载后安装好, perl2exe 下载后解压到某个目录,把 grib2ctl.pl 拷贝入该目录。 在 cmd 命令行窗口执行: perl2exe grib2ctl.pl 于是生成 grib2ctl.exe。为了方便使用,把它拷贝到 Grads 目录下,这里是 PCGrads\win32e\。 2. 工具 grib2ctl.exe 的使用。 使用过程中要用到 wgrib 工具,Grads自带了但不是最新的,最新版本需要自己下载。 查看: http://www.cpc.ncep.noaa.gov/products/wesley/wgrib.html 可选择下载源码或已编译版本。 这里使用已编译版本,下载 wgrib.exe 和其依赖的 cygwin1.dll 文件: ftp://ftp.cpc.ncep.noaa.gov/wd51we/wgrib/machines/Windows/wgrib.exe ftp://ftp.cpc.ncep.noaa.gov/wd51we/wgrib/machines/Windows/cygwin1.dll 把这两个文件放置在可以访问到的地方,例如和 grib2ctl.exe 放置在同一目录下,在 cmd 命令行窗口,cd 到数据文件所在路径(这里是 d:/data/ncep/),然后执行: grib2ctl.exe grib2006060100 grib2006060100.ctl 注意,这样生成的.ctl 文件还不能直接使用,需要处理: 去掉文件结尾多余部分,即 ENDVARS 之后的关于 Perl2exe 声明的部分(因为我们按 照前文地址得到的 Perl2exe 是试用版)。 得到的 ctl 文件举例见附录 1。 3.gribmap的使用 在 cmd 命令行窗口,cd 到数据文件所在路径,然后执行: gribmap –v –i grib2006060100.ctl b.txt 则,该路径下生成映射文件 grib2006060100.idx,b.txt 中记录了映射的过程,打开它可 以查看所有 field 匹配的情况,全是!!!!!MATCH才是完全匹配成功。(这里发现有的行不 是!!!!!MATCH,而是..... NOOOO,问题已经解决,见 2.3 节) leeyork.yanbing@yahoo.com.cn 如果不需要诊断,直接执行: gribmap –i grib2006060100.ctl 保证数据文件、ctl 文件、idx 文件,三者齐全,则 Grads下可以用命令打开: ga-open d:/data/ncep/grib2006060100.ctl 4.总结 实际使用过程就是: z d:\data\ncep grib2ctl.exe grib2006060100 grib2006060100.ctl z 打开 ctl 文件,把结尾多余信息去掉 z d:\data\ncep gribmap –v –i grib2006060100.ctl b.txt z 根据 gribmap 的映射过程文件 b.txt 确定匹配情况,根据需要修改 ctl 文件(分析和 修改过程见 2.3 节的例子),再次 gribmap 2.2 方法 2 利用工具 wgrib.exe 解码文件中需要使用的部分记录,建立新的数据文件,然后人工建 立描述文件.ctl。这种方法需要生成数据的备份,所以会占用较多的磁盘空间。 1.提取数据 工具 wgrid.exe 除了像方法 1 中那样被 grib2ctl 工具调用外,还可以单独使用,用于选 择性地解码 GRIB 文件中的记录。 要确定选择哪些记录,需要查看记录信息列表,用 wgrib 来生成,在数据文件路径下执 行: wgrib –v grib2006060100 a.txt 该文本文件就包含了数据文件中所有记录的列表,包括记录号、变量名、变量描述等。 一般我们要解码的是多条记录,可利用批处理文件。 例如,这里我们要解码 T、U、V三个变量,可以通过查看记录信息列表获知对应的记 录号,然后编写批处理文件,见附录 2。这个批处理带有两个参数, %1 表示输入的 ncep 资料文件名,%2 表示输出的二进制数据文件名,使用举例: ncep.bat grib2006060100 2006060100TUV.dat 2.建立描述文件 解码后的数据文件要配上 ctl 文件才能使用,这要手工建立。注意 ctl 中要有 OPTI O NS yrev,表示 y轴数据是反向的,因为 Grads默认 y轴(纬度)从南到北,而解码出的数据(纬 度)排列是从北到南。前面生成的数据文件对应的 ctl 内容应为: DSET ^2006060100TUV.dat TITLE TUV data UNDEF -9.99E33 OPTI O NS yrev XDEF 360 LINEAR 0 1 YDEF 181 LINEAR -90 1 ZDEF 26 LEVELS 1000 975 950 925 900 850 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 70 50 30 20 10 TDEF 1 LINEAR 01jun2006 06hr VARS 3 temp 26 99 temperature u 26 99 u wind v 26 99 v wind ENDVARS 2.3 解决 idx 中不匹配问题 原来生成映射过程文件 b.txt 中,发现有 7 行不是!!!!!MATCH,而是..... NOOOO,这 个错误已经解决! 下面举例说明解决过程(针对最后一个..... NOOOO): z 调查现场找线索 1. gribmap –v –i grib2006060100.ctl b.txt 生成的 b.txt 中的出事现场 ..... NOOOO: 285 23782648 3 1 0 27 100 500 (后面省略) 可以发现出错的地方对应 field 号是 285。 2. 用 wgrib –v grib2006060100 a.txt得到的数据 field描述文件中, 285 号 field附近的 现场 284:23592070 =2006060100:GPA:1000 mb:kpds=27,100,1000:anl:"Geopotential height anomaly 285:23698038 =2006060100:GPA:500 mb:kpds=27,100,500:anl:"Geopotential height anomaly 可以发现 285 号的 field表示的是 500hpa 的“Geopotential height anomaly” ,另有 284 号 field 表示的是 1000hpa 的“Geopotential height anomaly”,两者简称都是“GPA”。 3. grib2ctl grib2006060100 grib2006060100.ctl 生成的 grib2006060100.ctl 中与 “Geopotential height anomaly”及“GPA”相关的现场 GPAprs 2 27,100,0 ** (profile) Geopotential height anomaly 可以发现,284 和 285 号的 field 被 grib2ctl 合成了一个 2 层的 Va r,即 GPAprs。 z 分析 现场 3 中,如果按照 GPAprs 这样的 2层 Va r定义方式,那么对应的两个气压层次应该是 zdef 26 levels中最初的 2 层,即 1000 和 975,1000 对应现场 2 中284 号 field 是对的,但 975 无 法对应 285 号 field,因为这个 field 表示的层次是 500,这就是问题所在了! z 纠正错误 修改 ctl 文件,把现场 3 中的 2 层 GPAprs 变量改成 2 个 0 层的变量,kpds 要对应现场 2: GPA1000hpa 0 27,100,1000 ** 1000hpa Geopotential height anomaly GPA500hpa 0 27,100,500 ** 500hpa Geopotential height anomaly 然后,还要记得把变量数 Va r s 95 改成 Va r s 96,保存,这时新的 ctl 就更正确了一些,再用 gribmap 诊断发现原错误行变成了!!!!!MATCH。 其他的错误行可用类似的办法修正! 需要说明的是,如果你需要使用的变量都!!!!!MATCH成功,上文的这种修改就不是 必须的,如果追求完美,那自然要修改至清一色!!!!!MATCH为止,这是你的自由!
个人分类: wgrib|2933 次阅读|0 个评论
[转载]Epigenetics
syfox 2012-1-5 11:48
Laboratory Head Professor Emma Whitelaw Summary Epigenetics is the study of mechanisms which modify DNA structure in subtle ways, and thus change gene expression, without influencing the DNA base sequence. Characteristics like physical appearance and personality traits are commonly considered to be the result of interactions between genetic and environmental factors alone. However, genetically identical individuals, raised in similar environments, for example identical twins, show variation in some phenotypes. These variations may be the result of epigenetic differences between these individuals. At this stage, the research is best carried out using mouse models but, in the near future, Professor Whitelaw hopes to be able to study humans directly. A successful grant application has resulted in the establishment of the Australian Centre for Cancer Epigenetics at the Institute. The centre has expanded the DNA sequencing and imaging capacities available at QIMR, not only in cancer research, but also for scientists working in other areas. The laboratory has been developing a mouse model of fetal alcohol syndrome and anticipate that this will inform the community of the effects of maternal consumption of alcohol during pregnancy. http://www.qimr.edu.au/page/Lab/Epigenetics/Epigenetics_student_projects/
个人分类: 学习|1825 次阅读|0 个评论
Alu序列
grantlujiang 2011-12-17 11:38
转自:http://tssyligang.blog.163.com/blog/static/252397602010102703839594/ 中文名称: Alu序列 英文名称:Alu sequence 定义:人基因组约有50万~70万份拷贝,Alu I序列长282个核苷酸,由两个同源但略有差别的亚基组成。 Alu重复序列是哺乳动物基因组中SINE家族的一员,约有50万份拷贝。也就是说平均4~6 kb中就有一个Alu序列。由于这种DNA序列中有限制性内切核酸酶Alu工的识别序列AGCT,所以称为Alu重复序列。典型的人基因组Alu序列长282 bp,由两个同源但有差别的亚基构成。限制性剪切酶Alu I 可将其剪切成130bp和170bp两段,因此将其定名为Alu序列,平均每5kbDAN就有一个Alu序列。亚基来源于有缺失突变和点突变的7SLRNA基因。两个亚基间由腺嘌呤核苷酸密集的序列连接。右边的亚基中有无关的31 bp插入片段,称为IH。Alu序列两端各有一个正向重复序列,末端有一个poly(A)尾。   Alu序列一般散在分布,少数呈簇状分布。在细胞遗传学水平上观察,Alu重复序列集中在基因转录最活跃的染色体区段内。在所有已知的基因内含子中,几乎都发现了Alu序列。   与Alu序列亚基有很高同源性的7SLRNA是7SRNA的一部分,是将蛋白质运送到内质网以便分泌出胞外的信号识别颗粒(signal— recognition particle,SRP)的组成部分。7SRNA5,端的90个核苷酸同Alu序列左端同源,中间的160个核苷酸与Alu序列没有同源性,而3,端的 40个核苷酸与Alu序列右端同源。7SRNA基因是由RNA聚合酶Ⅲ转录的。人体Alu重复序列绝大多数要由RNA聚合酶Ⅲ转录成RNA,而且Alu 3,端有polyA尾,这些都提示Alu重复序列是通过RNA为中介,反转录成DNA后整合在基因组新位置上的。这里要提及的是,所有真核细胞里都含有3 种RNA聚合酶;RNA聚合酶I负责转录rRNA基因,产生核糖体RNA(ribosomal RNA,rRNA);RNA聚合酶Ⅱ负责转录所有编码蛋白质的基因,产生信使RNA(messenger RNA,mRNA),再由多聚腺嘌呤核苷酸聚合酶(poly(A)polymerase)负责加上poly(A)尾;RNA聚合酶Ⅲ负责转录转移 RNA(transfer RNA,tRNA)以及细胞核和细胞质内的各种小RNA,这些被转录的基因一般长300bp左右,且在基因组的重复拷贝数可达几千份甚至上百万份。   Alu家族不同成员之间的一致序列(consensus sequence)的同一性平均达87%。小鼠基因组内约有5万份拷贝的B1重复序列,长130 bp,与Alu的一个亚基的同源性达70%--80%。   哺乳动物基因组中为什么有这么多重复拷贝的DNA序列,目前还不是很清楚。现已发现,Alu序列中有一个14 bp的区段同乳多空病毒(papova virus)如SV40病毒,以及乙型肝炎病毒的复制起始序列几乎完全相同。这提示Alu序列很可能同真核生物基因组中的复制起始有某种相关,但这也存在 争论。因为Alu重复序列的拷贝数比复制起始点的预期数多出几十倍。此外还发现,中国仓鼠的Alu类家族(Alu-equivalent family)的一些成员,当位于其他转录单位附近时,能在体内被转录生成单独的RNA分子。
4278 次阅读|0 个评论
[转载]PAML软件的一些简单的具体的使用操作(转)
syfox 2011-12-7 15:54
2009-08-31 10:45 PAML软件的一些简单的具体的使用操作(2008-11-14 153642)标签:杂谈 1. 首先用Clustal X进行序列比对:要保证:保证核苷酸序列是三的倍数,没有终止密码子,核苷酸序列的第一位是密码子的第一位。假设序列名为cox1.fas 2. 使用DAMBE软件进行转换成PML格式。打开要转换换的文件,然后“file” “save and convert sequence format”,在保存类型中选择“Yang’s PAML”。那么此时的序列名为“cox1.PML” 3 这样就可以得到文件“.PML”,然后就直接把后缀改成“.nuc”。那么此时的序列名为“cox1.nuc” 这样就完成了文件格式的转换。(好像可以不用改) 4 打开PAML软件的文件夹,找到文件名是“bin”的文件夹,打开之后,找到程序“codeml.exe”,把该程序复制到D盘的根目录下。(这一步并不是必要的,只是要把用到的几个程序放在同一个目录下) 5 在你使用ClustalX进行序列比对的时候,会生成一棵进化树,适用treeview软件可以打开,你需要的是把文件的后缀名改称“.trees”。即树的文件名是“cox1.trees”,这就完成了树的格式的转换。(这个有待证实,目前PAML识别PAUP和PHYLIP建的进化树) 6 然后再PAML4的文件夹中找到一个是“codeml.ctl”的文件,复制到和“codeml.exe”相同的地方。 7 要对codeml.ctl文件中的各个选项的值进行修改,具体内容如下: 8 seqfile = cox1.nuc 按你自己的文件名进行修改,就可以了, 9 treefile = cox1.trees outfile = mlc main result file name , noisy = 9 0,1,2,3,9 how much rubbish on the screen , verbose = 0 0 concise; 1 detailed, 2 too much runmode = 0 seqtype = 1 1codons; 2AAs; 3codons--AAs CodonFreq = 2 0161 each, 1F1X4, 2F3X4, 3codon table clock = 0 aaDist = 0 0equal, +geometric; -linear, 1-6G1974,Miyata,c,p,v,a aaRatefile = wag.dat only used for aa seqs with model=empirical(_F) dayhoff.dat, jones.dat, wag.dat, mtmam.dat, or your own model = 0,这是使用的最简单的模型, models for codons 0one, 1b, 22 or more dNdS ratios for branches models for AAs or codon-translated AAs 0poisson, 1proportional, 2Empirical, 3Empirical+F 28 6FromCodon, 7AAClasses, 8REVaa_0, 9REVaa(nr=189) NSsites = 0 3 1 2 7 8 ,依次选取了6个模型。也可以选其中的两个,但必须是0和3,1和2,7和8。相互配对 icode = 4 0universal code; 1mammalian mt; 2-10see below如果是核基因的话就选0。 fix_kappa = 0 kappa = 5 fix_omega = 0 omega = 0.2 getSE = 0 RateAncestor = 0 Small_Diff = .5e-6 cleandata = 1 remove sites with ambiguity data (1yes, 0no) method = 0 0 simultaneous; 1 one branch at a time 10 最后保证在同一个文件夹内同时具有:三个文件“codeml.exe”,“cox1.nuc”“cox1.trees”,这时候你双击codeml.exe,就可以运行程序。 如果不能正确运行的话,你可以通过运行cmd,在dos情况下,运行codeml.exe,这样会有错误提示,知道你错在哪里了。 常见命令解释: 1. Baseml.ctl的命令说明: 2. noisy用来控制输出结果的多少,如果模型适用的运算比较多的话,noisy的值可以选择的比较大,verbose可以控制结果文件中结果的多少。 3. runmode = 0 表明在树的结构文件中估算树的拓扑结构。这个选项是我们通常情况下选择的,基本上可以满足我们的需要。 4. Runmode = 1 or 2 表明通过星状-分解算法来进行启发式搜索树。Runmode = 2 这种算法是从星状树开始搜索,而runmode = 1 则表明软件读取多歧树是从树的结构文件中,并且同过比较去估计最佳二歧树。 5. runmode = 3 表明是逐步增加的。 6. runmode = 4 通过简约法来搜索具有NNI perturbation的起始树。 7. runmode = 5 表明从树的结构文件中来读取NNI perturbation with 起始树。 8. Model 0,1,…,8 分别代表以下模型:JC69, K80, F81, F84, HKY85, T92, TN93, REV( also know as GTR), and UNREST。 9. Mgene 用于和序列数据文件中的option G进行联合,用于多个基因和多个位点的联合分析。如果不使用option G的话,则选择0。 10. ndata 用于指定文件中的分隔的数据集的数目。它的变化被用于模拟,你可以使用evolver来产生200个复制数据集,这是设置ndata = 200,然后用baseml进行分析。 11. clock 用于指定谱系之间速率恒定或变化的模型。Clock = 0,意味着整棵树中,不同分支之间不存在clock现象;Clock = 1,意味着global clock,所有的分支具有相同的进化速率;clock = 2 意味着local clock,所有分支之间的进化速率被分成几个部分;clock = 3意味着多个基因或多重分隔数据,允许分支的进化速率以不同的方式变化。;; 12. Codeml.ctl的使用说明: 13. CodonFreq 用于平衡密码子替换模型中的密码子使用频率。Codonfreq = 0 说明每种密码子的使用频率是相同的;codonfreq = 1 说明是从平均核苷酸频率中计算出来的;codonfreq = 2说明是从三个密码子位置的平均核苷酸频率得来的;codonfreq = 3则使用了三个参数。Codonfreq = 0,1,2和3 所代表的模型中使用的参数的数目分别为:0,3,9,和60。 14. aadist用于指定氨基酸距离是否是相同的(= 0),还是属于Grantham’s matrix(= 1)。 15. runmode = -2 执行ML方法来推测蛋白序列两两之间的dn和ds。 16. model 用于估计各个分支之间的w值。 Model = 0,表明所有的谱系具有一个w比率(one w ratio);model = 1,每一支具有一个速率(free-ratio);model = 2 表明速率的任意数字。 17. NSsites 主要是用于指定模型允许dnds(w)在不同的位点之间变化。NSsites = m 表明对应于 model = m。变化的 ncatG被用来指定在一些特定的模型下的w分布的类型的数目。NcatG的值被用于执行一下分析:paper are 3 for M3 (discrete), 5 for M4 (freq), 10 for the continuous distributions (M5 gamma, M6 2gamma, M7 beta, M8betaw, M9betagamma, M10 betagamma+1, M11betanormal1, and M1202normal1, M133normal0). This means M8 will have 11 site classes (10 from the beta distribution plus 1 additional class) 。通过NSsites可以同时执行多个模型,例如:NSsites = 0 1 2 3 7 8,的意思就是同时执行M0,M1,M2a,M3,M7,和M8。作者建议:使用M1a和M2a来重建LRT,使用M7和M8来重建LRT,使用M2a和M8来鉴别受到正选择的位点。 18. icode 用来更改所选序列的遗传密码子,以期得到更加准确的结果。 19. RateAncestor = 1 表明你想重建原始序列,如果 RateAncestor = 0 说明你将避免这个计算。不过使用效果并不明显,还需要进一步研究如何使用。 PAML使用中最重要的就是模型的选择: PAML中所有的模型都在baseml和codeml这两个程序中使用。这两个程序是最大似然程序,它们使用数值优化算法来最大化对数似然值。这些模型最大的用途就是适用likelihood ratio test(似然比率检验)来检测有趣的生物学假设。这些模型是在Baseml中使用的,软件中常用的数学模型有:JC69(Jukes and Cantor 1969),K80(Kimura 1980),F81(Felsenstein 1981),F84(Felsenstein 1984),HKY85(Hasegawa 1984,1985),Tamura(1992),Tamura and Nei(1993),and REV,also know as GTR for general-time-reversible(Yang 1994)。 模型的一般遵循以下假设: 1. 在不同的谱系中替换是独立发生的。 2. 在不同的位点中替换也是独立发生的。 3. 替换的过程我们通过时间均匀马尔科夫过程(time-homogeneous Markov process)。 常用的两种检测方法: 1. Maximum likelihood estimates(MLEs):观测到的数据X的概率(probability),当做为一个未知参数θ的函数的时候,就叫做似然函数(likelihood function):L (θ:∣X) = f(θ∣X)。根据似然规则(likelihood principle),似然函数包括数据中关于参数θ所有的信息。参数θ的最佳点估计(optimal point estimate)可以通过最大化似然L的θ值或l(θ;X)的似然对数进行估计。并且,似然曲线可以为未确定的点估计提供信息。 2. Likelihood ratio tests (LRTs):假设一个简单模型或无效模型(simpler or null model)有一个参数 p0,更通用的模型或可选择的模型(general or alternative model)有一个参数p1,两个模型的最佳似然值分别为l0和l1。那么对数似然值差异(log likelihood difference)的两倍是:2△l = 2(l1 - l0),如果无效模型(null model)成立的话,那么对数似然值差异的二倍将与自由度是d.f. = p1- p0的卡方分布具有渐进关系(asymptotically)。因此,对数似然值差异的二倍的检验统计可以通过比较卡方分布来检验无效模型(null model)是否拒绝备择模型(alternative model)。 所谓Likelihood ratio test(似然比率检测)是用来检验两个模型的。 离散伽玛模型(discrete-gamma model)允许不同位点具有不同的变化速率。 Baseml中有核苷酸替换模型,Codeml中有不同位点替换速率变化的模型。 1. 作者在Codeml中进行比较的两个模型比较有:M1a(Nearly Neutral)和M2a(Positive Selection);M7(beta)和M8(betaω)。 2. 作者认为M3对于正选择的LRT检测并不是十分适合,并不推荐适用M3模型。 使用似然比率检测可以验证正选择(Testing positive selection using the likelihood ratio test)。作者推荐使用二到三种LRT来验证正选择。第一个检测是比较M1a和M2a, 第二个检测是比较M7和M8。 Gamma分布中形状参数所表示的含义: 1. α> 1,大多数位点的替换速率在1附近,但有少数位点具有比较高或比较低的替换速率。曲线形状为 bell-shaped 2. α→∞,表明所有的位点具有一个相同速率。 3. α ≤ 1,表明大部分位点的替换速率比较低,或接近于不变,可是有一些位点具有比较高的替换速率。曲线形状为 L-shape。 PAML的一个重要功能就是检测基因是否受到正选择,即适应性选择。但是现在用于估计适应性选择的方法,忽略了氨基酸的化学性质,这样得出的结果是不准确的,作者表示,直接通过dn和ds的比较来确定受到什么样的选择压力,是不准确的。 PAML中的无效模型(null model)是指不允许任何位点的ω值大于1。PAML中null model是不允许w值大于1,如果null model成立,则w小于1,基因受到负选择;如果null model不成立,则w大于1,基因受到正选择。研究表明,通过比较两个点模型,而得到的结果尤其可靠。 Ancestral reconstruction 为探索数据提供了一个直观的方法,他被用于大量的数据分析,例如,评估不同谱系中的选择压力。但是由于这种方法的简单和直观,会产生很多错误。大多数重建原始序列的工作都忽略了这样一个事实,即使用假数据(pseudo-data)代替真实观察到的数据(real observed data),并且仅仅使用处于最佳状态(optimal character states)的一些特征,而忽略未处于最佳状态(suboptimal states)的一些特征,从而产生一些系统上的偏差(systematic biases)。如果数据中的ds区域饱和的话,那么会导致我们低估ds,从而使dnds的值偏高,即 ω的值偏高。进化距离估计中有关序列间隔的处理进化距离估计中,排列时的间隔导致了某些复杂的问题。同时,由于实验上的原因,也可能出现丧失信息的位点。在距离估计中,一般忽略这些位点,可用两种不同的方法来进行处理。一种方法是从数据分析中删除这些位点,称为完全删除(complete deletion)。一般来说,这种方法较好,因为DNA或氨基酸序列的不同区段往往具有不同的演变规律。然而在所研究的序列中,间隔不大或者是随机分布的,则可计算每个配对序列间的距离,并只忽略两个配对序列间的那些间隔。这种方法称为成对删除(pairwise deletion)。这个过程在PAML中可以通过cleandata = 0 或1。使用PAML进行数据分析的时候,所选用的序列越多,则得到的结果越可靠。一般应该大于17条序列,此外影响LRT检验结果好坏的因素还有:序列长度(sequence length)、序列分异度(sequence divergence)和正选择的强度(the strength of positive selection )(Anisimova, Bielawski et al. 2001; Opazo, Palma et al. 2005)。 还有使用PAML进行序列分析的时候必须检验序列是否发生过重排,可以使用的软件由PLATO 2.0,HYPHY等软件(Pond, Frost et al. 2005; Kosakovsky Pond, Posada et al. 2006; Petersen, Bollback et al. 2007)。如果是检测序列受到的选择压力的话,那么序列大于50codons即可,但是这些序列对于系统进化分析可能得到的结果不可靠(Pie 2006)。 物种的基因只有在受到正选择作用才能不断的适应环境的变化,所以正选择在物种进化中起到了非常重要的作用(Vallender and Lahn 2004)。 PAML中常用的模型有以下几个: 1. M0,所有的谱系具有相同的ω0值。 2. M3,discrete,它的位点具有三个离散类(discrete classes),并且具有不同的ω0。 3. M1a,nearly neutral model,允许两个位点分类,0< ω0 <1 或ω>1。 4. M2a,selection,具有一个额外的位点分类ω>1。 5. M7,beta,ω<1,具有额外10个位点分类。 6. M8,ω>1,具有额外11个位点分类。其中可以用于检验正选择的模型是M2a,M3和M8,得到了结果之后,我们可以再使用NEB(na?ve empirical)和BEB(bayes empirical )进行验证,通过后验概率,一般应该大于0.95。 PAML软件的模型中需要考虑的问题是: 1. 遗传密码子的结构。 2. 转换和颠换的比值。 3. 密码子不同位置的速率。 PAML操作中存在的问题: 1. 在codeml中,runmode是不是通常选择0,如果选择-2的话,就是使用ML法进行计算蛋白序列两两之间的dn和ds?那核苷酸序列可以吗? 2. model,通常下,我选的为0,意思是所有的谱系具有一个相同的ω值,这个在分析的时候怎么选择?如何检测各个谱系之间的ω的差异? 3. 对于NSsites的话,如果要进行两个模型之间比较,同时选择两个模型是否可以? 4. 例如,我要比较M0和M3,那么在NSsites = 0 3。这样选择,在结果中计算的是这两个不同模型下的结果,还是进行的两个模型的比较?如果进行比较,是否需要分别计算出各个模型的lnL值,在使用chi程序进行两两比较? 5. 其余还有什么关键性的参数? 6. 还有运算量大不大?一般的512M内存,3.0G的计算机能运行完吗? 7. 这个提示是什么意思?model should be 0 in the batch run. 如何重建基因家族中的原始序列(Ancestral sequence)? PAML软件中的序列处理: 1. 如果序列之间的分异度比较明显的话,那么需要4-5条序列;如果有10条序列的话,效果会比较好;如果序列数大于20,那么得到的结果就会比较可靠。当然这也和序列之间的分异度有比较密切的联系。 2. 最佳序列分异取决于序列的数目,如果树比较大的话,则可以容忍更多的变异。一般情况下,如果总共的ds的距离大于0.5,那么就认为这种方法是合理的。 3. 一般情况下,软件可以鉴别出一到两个位点受到较强的选择压力,但是有可能一些位点受到了选择压力,但比较弱,这是LRT方法会告诉你,这个位点存在选择压力,但是对于鉴别出,比较麻烦。 4. 一般情况下,使用简单模型和复杂模型得出的结果应该是一致的。所以,M0作为比较简单的模型,使用它得出的枝长、K以及w值应该和其他复杂模型得出的结果是一致的。 5. 如果比对的序列是高度相似或高度分异的话,我们应该执行程序两遍。 6. 如果使用NSsites执行多个模型,ncatG的参数也需要重新设置。 7. 在计算过程中,序列的饱和性并不是一个主要的问题,一般较高的序列分异会带来更多的问题,不同的序列之中会具有不同的密码子使用偏好性和核苷酸组成。 8. 计算出来的w值是不能为负值的。 9. 现在已经找到,lnL的值在rst文件中,但是每个位点的w值,在什么地方呢?即使找到了相关的参数,那么接下来再如何分析呢? 10. 在进行序列分析的时候,要把编码序列末端的终止密码子去掉,以防止出现误差。 PAML中用到的进化树的格式: A tree structure file is used when runmode = 0 or 1. The file name is specified in the appropriate control file. The tree topology is typically specified using the parenthesis notation (括号标序法), although it is possible to use a branch representation, as described below. Parenthesis notation. The first is the familiar parenthesis representation, used in most phylogenetic software. The species can be represented using either their names or their indexes corresponding to the order of their occurrences in the sequence data file. If species names are used, they have to match exactly those in the sequence data file (including spaces or strange characters). Branch lengths are allowed. The following is a possible tree structure file for a data set of four species (human, chimpanzee, gorilla, and orangutan, occurring in this order in data file). The first tree is a star tree, while the next four trees are the same. If the tree has branch lengths, baseml and codeml allow you to use the branch lengths in the tree as starting values for maximum likelihood iteration. Whether you should use rooted or unrooted trees depends on the model, for example, on whether a molecular clock is assumed. Without the clock (clock = 0), unrooted trees should be used, such as ((1,2),3,4) or (1,2,(3,4)). With the clock or local-clock models, the trees should be rooted and these two trees are different and both are different from (((1,2),3),4). In PAML, a rooted tree has a bifurcation at the root, while an unrooted tree has a trifurcation or multifurcation at the root. Tree files produced by PAUP and MacClade. PAML programs have only limited compatibility with the tree file generated by PAUP or MacClade. First the “ ” notation for specifying an unrooted tree is ignored. For the tree to be accepted as an unrooted tree by PAML, you have to manually modify the tree file so that there is a trifurcation at the root, for example, by changing “(((1,2),3),4)” into ”((1,2),3,4)”. Second, the “Translate” keyword is ignored by PAML as well, and it is assumed that the ordering of the sequences in the tree file is exactly the same as the ordering of the sequences in the sequence data file. Branch or node labels. Some models implemented in baseml and codeml allow several groups of branched on the tree, which are assigned different parameters of interest. For example, in the local clock models (clock = 2 or 3) in baseml or codeml, you can have, say, 3 branch rate groups, with low, medium, and high rates respectively. Also the branch-specific codon models (model = 2 or 3 for codonml) allow different branch groups to have different ωs, leading to so called “two-ratios” and “three-ratios” models. All those models require branches or nodes in the tree to be labeled. Branch labels are specified in the same way as branch lengths except that the symbol “#” is used rather than “”. The branch labels are consecutive integers starting from 0, which is the default and does not have to be specified. For example, the following tree is from the tree file exampleslysozymelysozyme.trees, with a branch label for fitting models of different ω ratio for branched. Anisimova, M., J. P. Bielawski, et al. (2001). Accuracy and Power of the Likelihood Ratio Test in Detecting Adaptive Molecular Evolution. Mol Biol Evol 18(8) 1585-1592. Kosakovsky Pond, S. L., D. Posada, et al. (2006). GARD a genetic algorithm for recombination detection. Bioinformatics 22(24) 3096-3098. Opazo, J. C., R. E. Palma, et al. (2005). Adaptive Evolution of the Insulin Gene in Caviomorph Rodents. Mol Biol Evol 22(5) 1290-1298. Petersen, L., J. P. Bollback, et al. (2007). Genes under positive selection in Escherichia coli. Genome Res. 17(9) 1336-1343. Pie, M. R. (2006). The Influence of Phylogenetic Uncertainty on the Detection of Positive Darwinian Selection. Mol Biol Evol 23(12) 2274-2278. Pond, S. L. K., S. D. W. Frost, et al. (2005). HyPhy hypothesis testing using phylogenies. Bioinformatics 21(5) 676-679. Vallender, E. J. and B. T. Lahn (2004). Positive selection on the human genome. Hum. Mol. Genet. 13(suppl_2) R245-254.
个人分类: 组装|0 个评论
[转载]木豆基因组测序完成
syfox 2011-11-13 20:05
Draft genome sequence of pigeonpea (Cajanus cajan), an orphan legume crop of resource-poor farmers Varshney RK, Chen W, Li Y, Bharti AK, Saxena RK, Schlueter JA, Donoghue MTA, Azam S, Fan G, Whaley AM, Farmer AD, Sheridan J, Iwata A, Tuteja R, Penmetsa RV, Wu W, Upadhyaya HD, Yang S-P, Shah T, Saxena KB, Michael T, McCombie WR, Yang B, Zhang G, Yang H, Wang J, Spillane C, Cook DR, May GD, Xu X, Jackson SA 摘要Pigeonpea is an important legume food crop grown primarily by smallholder farmers in many semi-arid tropical regions of the world. We used the Illumina next-generation sequencing platform to generate 237.2 Gb of sequence, which along with Sanger-based bacterial artificial chromosome end sequences and a genetic map, we assembled into scaffolds representing 72.7% (605.78 Mb) of the 833.07 Mb pigeonpea genome. Genome analysis predicted 48,680 genes for pigeonpea and also showed the potential role that certain gene families, for example, drought tolerance–related genes, have played throughout the domestication of pigeonpea and the evolution of its ancestors. Although we found a few segmental duplication events, we did not observe the recent genome-wide duplication events observed in soybean. This reference genome sequence will facilitate the identification of the genetic basis of agronomically important traits, and accelerate the development of improved pigeonpea varieties that could improve food security in many developing countries. 木豆基因组测序完成 来自印度国际半干旱地区热带作物研究所(ICRISAT),深圳华大基因研究院,美国乔治亚大学等处的研究人员完成了一种豆类植物——木豆(Cajanus cajan)基因组草图,这是继大豆之后第二个完成基因组测序的食用豆类,其基因组测序的完成将有助于科学家们从基因组水平更好地了解木豆的生物学特性,对提高木豆的质量、产量和促进亚洲及撒哈拉以南的非洲等地区的可持续性粮食生产具有重大意义。这一研究成果公布在《自然—生物技术》(Nature Biotechnology)杂志上。 据报道,木豆是木豆属Cajanus中唯一的一个栽培种Cajanus cajan,为世界第六大食用豆类,也是迄今为止唯一的一种木本食用豆类作物。木豆原产于印度,距今大约已有6000年的栽培历史,目前全世界木豆栽培面积为500多万公顷,主要分布在亚洲、非洲撒哈拉沙漠以南和美国中南部,其中,栽培面积最大的是印度,占世界的80%以上。木豆在世界的半干旱地区是一种非常重要的食用豆类,由于其高蛋白含量被称为“穷人的肉”,与谷类一起搭配食用可保证当地居民的膳食平衡。木豆基因组结构和功能的研究对提高木豆的质量、产量和增强其对恶劣环境的抵抗能力和防治病虫害等方面具有重要意义。 在这篇文章中,研究人员通过新一代测序技术对木豆的DNA进行测序、组装和注释,推测出木豆的基因组大小约为833.07Mb(组装得到的基因组大小约为605.78Mb),并预测其含有48,680个基因。研究人员发现了一些木豆所特有的耐旱基因,这些基因可以被转入到大豆、豇豆或者菜豆等其他豆类植物中,从而提高这些豆类的耐旱性,这将有助于改善干旱地区贫困农民的生计。 文章的第一作者之一、华大基因该项目负责人陈文彬介绍说:“在对木豆的基因组进行分析时,我们发现这些与耐旱相关的基因在整个木豆的驯化及其祖先的进化历史上很可能扮演着非常重要的角色。木豆基因组序列图谱的完成为深入探讨其重要农业性状奠定了坚实的遗传学基础,并将有助于具有优良性状的木豆新品种的研究与开发”。 国际半干旱地区热带作物研究所所长William D. Dar说:“目前全球正面临着几十年来最严重的旱灾和饥荒,尤其是非洲。以科学为基础的、可持续的农业发展对帮助干旱地区人民摆脱贫困和饥荒是至关重要的。木豆基因组序列图谱的完成对加速新品种培育、提高作物产量以及改善民生具有非常重要的意义。” 文章的第一作者、该项目的首席科学家Rajeev Varshney博士解释说:“目前,通过传统的方法培育一个新品种大概需要6-10年的时间,而木豆基因组序列图谱将有助于加快木豆‘优良基因’的筛选,可使培育一个新品种的时间缩短至3年,同时也会使成本大大降低。” 华大基因主席杨焕明院士表示:“此次木豆基因组项目的重大成果对中印两国科学家之间的合作具有里程碑式的意义,说明中印两国的科学家在基因组学研究领域已经建立了良好的合作关系和深刻的共识。希望将来我们能有更多的合作机会,为整个世界和人类做出更多贡献。”(来源:生物通) 猴面花茎,毛茸茸的而且有粘性,可达1到4英尺高。 猴面花 是存活期为一年或多年的植物或灌木中的一个大品种,分布在欧洲和南极洲以外的大陆。在北美洲的西部常常可以见到野生猴面花。这种植物的拉丁名称为Mimulus,意为小丑角,指的是它那红色、橙色、黄色、蓝色或紫色带小点的花朵就象一张张脸蛋。它的叶子成对生长,有的呈锯齿状,有的边缘却很光滑。它们大多长有带毛的或粘性的茎,高达1到4英尺(30~120cm)。但矮猴面花的茎却只有4英尺(10cm)高。 野生猴面花的拉丁学名为Mimulus guttatus;矮猴面花的拉丁学名为M. nanus。猴面花属于元参科,拉丁学名为Scrophulariaceae。
个人分类: 测序|2584 次阅读|0 个评论
[转载]sequence man 的使用
tqan 2010-9-24 23:39
他们利用 SeqMan 进行序列拼接 Step1: 打开 Seqman 软件 Step2: 加入你要拼接的序列 点击 Add sequences 查找并选中要拼接的序列(可按住 control 键进行多选) 点击 Add 按钮填加选择的序列 填加完后点击 done 注:最好用测序的图谱尽量不要直接用测序得到的序列 Step3: 去除末端序列 主要是去除序列末端测序质量差或是载体序列 有两种方法可以用来去除这类末端序列 其一:利用 Seqman 自带的去除工具自动去除(利用 Trim ends 按钮进行) 其二:手工去除 个人感觉手工去除方法最有效,因此下边我们以后工去除为例进行演示 手工去除侧翼序列 双击要去除侧翼序列的目标序列 将鼠标放到测序图谱左边的一个黑色的竖线上,此时鼠标会变成一个有两个箭头的水平线 按住左键拖动黑竖线,那么你就会发现侧翼序列的颜色变浅,这部分变浅的序列则就被去除,不再参加后面的拼接 此步请将测序不准确或认为是载体的序列用这种方法去除。 测序准确的峰形图 峰形规则,一般在序列的中部,如下图所示 测序不准确的峰形图 峰形较乱,很难判断是哪个碱基,一般位于序列两端,如下图所示 Step4: 进行序列拼接 点击 Assemble 按钮 在新出现窗口处点击拼接好的 contig1 在出现的 Alignment of contig1 窗口中点击左三角显示序列的测序图谱 点击菜单 contig-strategy view 可以观察序列拼接的宏观图 Step5: 查找拼接错误 find conflict ? 点击菜单 Edit 点击 Find Previous 或 Find Next 查找接接中出现的错误 还可以通过 Seqman 左下角的快捷按钮查找错误的拼接 查找错误的拼接 错误的拼接的类型 类型 1 :两条序列的测序结果不一致并明显一条测序质量好而另一条质量差 处理:直接将该处修改为正确的碱基 类型 2 :两条序列的测序结果不一致并两条测序质量都比较差 处理:重新测序或用新的合适引物重新测定 类型 3 :两条序列的测序结果不一致并明显两条测序质量都好 处理:测序过程出现问题,重新测定 Step6: 导出拼接的序列 可选择合适的格式,导出拼接好的序列 通过以上几步我们就能很快将几个测序片段进行拼接,大家可以拿着自己的序列试试 ! 当然如果两个测序片段的拼接片段太短可能利用默认的参数不能完成拼接,大家可以试着修改一下拼接参数试试 ! 如降低 Match size 及 Minimum Match Percentage 的值 ! 修改参数命令
个人分类: molecular biology|3974 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 14:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部