科学网

 找回密码
  注册

tag 标签: 序列获取

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

小麦单基因分析
热度 1 mashengwei 2018-8-6 21:46
前面我们谈了如何调取目标区间的序列、基因等。今天我们再详细说一说如何利用手头上的数据进行基于单基因的分析。 今天的主角是GW5,我们前面在《 水稻GW5的前世今生 》里介绍过水稻的GW5基因,今天我们就以小麦里的GW5为例。 下面是水稻GW5的基因序列 LOC_Os05g09520.1 ATGGGCAAGGCGGCGCGGTGGTTCCGCAACATGTGGGGAGGAGGGAGGAAGGAGCAGAAG GGCGAGGCGCCGGCGAGTGGGGGGAAGAGGTGGAGCTTCGGGAAGTCGTCGAGGGACTCG GCGGAGGCCGCGGCGGCTGCTGCTGCGGCGGCGGCGGAGGCTTCCGGGGGCAATGCGGCG ATCGCCAGGGCGGCCGAGGCGGCGTGGCTCAGGTCGGTGTACGCCGACACGGAGCGGGAG CAGAGCAAGCACGCCATCGCCGTCGCCGCGGCCACCGCGGCGGCGGCTGATGCCGCCGTG GCGGCCGCTCAGGCCGCCGTCGCCGTCGTGCGGCTTACTAGCAAGGGCCGCTCGGCTCCC GTCCTCGCCGCCACCGTCGCCGGCGACACGCGCAGCCTTGCCGCCGCCGCCGTCAGAATC CAGACGGCATTCAGAGGCTTCCTGGCGAAGAAGGCGCTGCGAGCGCTCAAGGCGCTGGTG AAGCTGCAGGCGCTGGTGCGCGGCTACCTCGTTCGCCGGCAGGCCGCCGCCACGCTGCAG AGCATGCAGGCGCTCGTCCGCGCCCAGGCCACTGTCCGCGCCCACCGCAGTGGCGCCGGC GCCGCCGCCAATCTCCCGCACCTCCACCACGCTCCCTTCTGGCCCCGCCGCTCGCTGGTA CGCCGCTGGCTAAATCTCGCCGACGACATCGCCATGTATATGTTCGATGTTGACGTTGTG TGTTGGCGATGGATGCAGCAGGAGAGGTGCGCCGGCGACGACACGAGGAGCGAGCACGGT GTGGCGGCGTACAGCCGGCGGCTGTCGGCGAGCATCGAGTCGTCGTCGTACGGGTACGAC CGGAGCCCCAAGATCGTGGAGGTGGACACCGGGAGGCCCAAGTCGCGGTCGTCGTCGTCG CGGCGGGCGAGCTCCCCGCTGCTGCTCGACGCCGCTGGGTGCGCGAGCGGCGGCGAGGAC TGGTGCGCCAACTCCATGTCGTCGCCGCTCCCGTGCTACCTCCCCGGCGGCGCGCCGCCG CCCCGCATCGCCGTCCCGACGTCGCGCCACTTCCCCGACTACGACTGGTGCGCGCTGGAG AAGGCCCGGCCGGCGACGGCGCAGAGCACGCCGCGGTACGCGCACGCGCCGCCGACGCCG ACCAAGAGCGTGTGCGGCGGCGGCGGCGGCGGCGGCATCCACTCGTCGCCGCTCAACTGC CCGAACTACATGTCCAACACGCAGTCGTTCGAGGCGAAGGTGCGTTCGCAGAGCGCGCCG AAGCAGCGGCCGGAGACCGGCGGCGCCGGCGCCGGCGGCGGCCGGAAGCGGGTGCCGCTG AGCGAGGTGGTGGTGGTGGAGTCCAGGGCGAGCTTGAGCGGCGTGGGCATGCAGCGCTCG TGCAACCGGGTGCAGGAGGCGTTCAACTTCAAGACGGCCGTCGTCGGCCGCCTCGACCGC TCGTCGGAGTCCGGCGAGAACGACCGCCACGCGTTCTTGCAGAGGAGGTGGTGA 1 、获取小麦GW5基因 上述水稻GW5的CDS序列作为查询序列,使用blastn查询小麦基因数据库。具体操作方式如下。 2018-08-06 15_53_40 blast结果如下, 2018-08-06 15_59_27 从结果中我们可以判断出GW5在小麦里位于小麦第一部分同源群,1A/1B/1D。基因的名字是TraesCS1A01G122900,TraesCS1B01G142100,TraesCS1D01G123800。注意,此处我使用的是GW5的核酸序列,仅仅因为该基因在水稻和小麦之间比较保守。这里也可以使用蛋白序列。 2、获取基因序列(利用jbrowse) 这里可以是基因的CDS序列,基因组序列,启动子序列等,基因上下游序列等。具体的操作方式如下, 2018-08-06 16_30_37 至于蛋白序列,可以在get sequence里获取(http://202.194.139.32/getfasta/index.html),前面我们也已经介绍过了《 小麦族多组学数据网站——序列获取 》。或者有CDS序列,可以使用一些翻译工具获取。 3 、确定基因的全长 这里主要是用三代转录组测序的结果。成熟的mRNA5’端会加帽,往往有一个额外的G,而3’端会有polyA。据此,可以判断基因的转录起始位点,3’端结束的位置。要多看一些reads的结果再确定,不同组织里还可能发现可变的TSS和polyA位点。 4 、了解基因的表达 关于表达方面的数据,我们前面已经介绍过使用IWGSC上提供的表达数据。具体的下载地址可以参见前一篇《 获取目标染色体区间内的基因和候选基因的筛选策略 》。也可以在线使用这个数据http://www.wheat-expression.com/。 按照上图操作,实际上是下载了这3个基因的原始表达数据(TPM),使用excel打开之后,整理成需要的格式,并且根据需要作图即可。 5、获取序列变异数据 提前获知基因在不同材料之间的变异情况,有助于我们多态标记等,然后再结合表型数据就可以进行一些有意思的分析了。选择的时候,尽量不要选择稀有的变异。此处仅以820k为例,其他的数据,可在jbrowse上进一步探索。 6 查看是否有small RNA 从下图来看,此处有降解组的reads支持,那么该基因可能是某些小RNA的靶基因。不过还需要更多的分析来证明。 今天的内容就到这吧。以后数据会越来越多,我们可利用的信息也越来越多。利用这些已发表的数据,我们可以快速做出预判。 最后在附上IWGSC官方的3个网站 https://urgi.versailles.inra.fr/WheatMine/begin.do https://urgi.versailles.inra.fr/jbrowseiwgsc/gmod_jbrowse/?data=myData/IWGSC_RefSeq_v1.0 https://urgi.versailles.inra.fr/blast_iwgsc/?dbgroup=wheat_iwgsc_refseq_v1_chromosomesprogram=blastn 一些小麦方面的最新资源可以在下面几个网站查阅。 https://wheat-urgi.versailles.inra.fr/Seq-Repository http://www.wheatgenome.org/ https://wheat.pw.usda.gov/GG3/ http://www.10wheatgenomes.com/ \0 本系列的“教程”暂时到此,后面有机会会继续介绍。希望能够帮到需要的人。 小麦族多组学中心网站使用注意事项 小麦研究联盟倾情打造小麦族多组学数据网站 小麦族多组学数据网站——序列获取 小麦族多组学数据网站——设计基因组特异引物 小麦族多组学数据网站——再说设计引物 小麦jbrowse数据更新 获取目标染色体区间内的基因和候选基因的筛选策略 小麦新资源 张一婧研究组开发方法助力小麦等大基因组作物核心基因组低成本组装及新基因挖掘 还在race拿全长? IWGSCv1.0准确性如何? 在线使用乌尔图基因组
5788 次阅读|1 个评论
小麦族多组学数据网站——序列获取
mashengwei 2018-5-2 08:29
小麦族多组学数据网站——序列获取 上周我们公布了我们刚刚上线的小麦族多组学数据网站( http://202.194.139.32/ ),近一周来已有437次访问。目前网站上线的功能不多,数据也不多,但是很多地方小细节还是我们独有的。在接下来的一段时间我们会一一介绍。未来我们也希望能够和更多的老师合作,能够让小麦组学数据更容易使用。同时也有很多小伙伴反应网站是英文的,后面有机会我们一定会推出中文版的,相信未来我们一定会有中国人自己的小麦族数据中心。 废话说了这么多,胖丫看不下去了,非得让我删去。胖丫说,漂亮话谁都会说,关键是要干出来,撸起袖子加油干才是正事。我哈哈一笑,附和着说:丫丫,你这话说的漂亮。胖丫稍微一愣,用右手中指往上推了推眼镜,转身插枪头去了。 好了,我们言归正传。自从中国春1.0基因组公布,blastn之后序列的调取有点不方便了。本来几秒钟搞定的事,现在要好几步才能搞定。所以能我们首先上线的就是序列获取功能,当然了经典的blast功能也同时在线了。点击下图中的get sequence就可以到达序列获取的页面( http://202.194.139.32/getfasta/ )。 进来之后的页面如下: 首先说说支持哪些序列的调取。如下图所示,目前支持中国春1.0基因组序列、1.0基因和蛋白序列,野生二粒小麦的基因组序列、基因和蛋白序列,节节麦基因组序列、基因和蛋白序列,大麦基因组、基因和蛋白序列。除了这些,还有4个普通小麦(Cadenza, Claire, Paragon和Robigus)和一个四倍体材料(Kronos)。序列获取这一块后面会支持更多的内容,比如乌拉尔图的序列,重复序列,标记序列等。大家还需要什么样的数据还请告诉我们,暂时大家也可以提供自己的数据。 接下来我们举例说明。首先要说一说染色体序列的获取,染色体序列目前我们支持获取的区间序列长度不大于5Mb。这里要注意不同基因组间染色体编号的差异,中国春的染色体编号我们比较熟悉了,野生二粒和中国春是一致的,节节麦的七条染色体用1-7表示,大麦的7条染色体是数字后面加了H,比如1号染色体就是chr1H,对应中国春的第一部分同源群。比方说我想要获取中国春7A染色体上500Mb至501Mb的序列,则需要输入,chr7A:500000000-501000000。 其中:和-都是英文状态下的输入 。输入好之后需要选择数据库,因为我们想获取中国春的序列,所以就选择上图中的第一个(wheat genome 那个)。选好之后点击提交(Submit)即可。 对于基因和蛋白序列的获取,直接输入名字或ID就好。中国春基因的编号类似这个,TraesCS6A01G032200.1。其中 Traes 表示普通小麦,也即六倍体小麦; CS 表示中国春,也即品种的名字; 6A 是染色体的名字; 01G 应该算是版本号;后面小数点之前的数字 032200 表示基因在染色体上的编号,这个编号一般是以 10 为单位变化,比如与这个基因挨着的两个基因是TraesCS6A01G032210.1,TraesCS6A01G032190.1;点后面的数字表示转录本的编号,如下图该基因有两个转化本,对应的编号是 .1和.2。另外还有中国春里还有一种基因编号里有LC两个字母,如 TraesCS6A01G039400LC.1,这里的LC是 low confidence的缩写,表示注释出的这个基因可信度比较低。这里的低是相对的说法,多数时候基因还是正确的。大家接触多了就会明白了。同样的对于其他基因组的基因编号也是类似的,大家应该可以明白的。 比方说我想要获取编号为TraesCS6A01G032200.1的基因序列和蛋白序列。如下图所以输入基因名字和选择相应的数据库即可。 蛋白序列 要特别强调一点, 这里支持同时获取多条序列,每行一个基因名字或染色体区间即可 。今天的序列获取就介绍到这里,下周我们会继续介绍如何进行blast。写完了才发现,貌似先介绍blast再介绍序列获取比较好。 最后还要说两件我们很久没说的事情,一件事关于我们我们举办摄影比赛的事情,大家可以通过邮箱 13148474750@163.com 投稿。另外一件事是,我们前面成立了一个小麦教师群。欢迎从事小麦研究和育种的老师加入,也欢迎博后加入。长按下方的二维码添加我们的主编王萌,确认身份之后会拉进群。
12231 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 02:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部