科学网

 找回密码
  注册

tag 标签: KEGG

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[KEGG Database]How to download information from KEGG
热度 1 Vickie19 2019-3-27 20:20
如何从KEGG上下载信息 How to download information from KEGG 我们可以利用一个网址来下载数据,在此用GNAS基因作为示例,其他的基因或通路也可采取同样的方式。 We can use a website to download information from KEGG database. Here, we use GNAS gene as example. 1,你需要事先查询基因/通路的KEGG ID,GNAS的ID是KO4632 You must know the KEGG ID of GNAS gene, i.e. KO4632 https://www.kegg.jp/dbget-bin/www_bget?ko:K04632 2, 你可以打开这个网址 http://rest.kegg.jp/get/K04632 如果是其他的KEGG ID, 则是 http://rest.kegg.jp/get/ **** You can open website, http://rest.kegg.jp/get/K04632 3. 你可以在Linux环境下用wget下载,或者在window环境下右键另存为一个文件。 You can use wget(Linux command) or right click save as a file.
个人分类: KEGG数据库|2701 次阅读|1 个评论
没钱买KEGG怎么办?REACTOME开源通路更强大
chen7qi 2018-10-25 13:49
之前搜集 免费生物AI插图 时简单提到了通路数据库Reactome( https://reactome.org/), 那些精美的生物插图只能算是该数据库附赠的小礼品,他的 主要功能还是作为一个开源的通路数据库,为相关领域的研究者提供直观的可视化生物信息学工具 。在一定程度上,可以替代收费的KEGG数据库,而且拓展出很多新的通路。 目前该库覆盖了 19个物种 的通路研究,包括经典的代谢通路、信号转导、基因转录调控、细胞凋亡与疾病。数据库引用了100多个不同的在线生物信息学资源库,包括 NCBI 、 Ensembl 、UniProt、 UCSC基因组浏览器 、ChEBI小分子数据库和 PubMed文献数据库 等。(具体见下图和表) SPECIES PROTEINS COMPLEXES REACTIONS PATHWAYS D. discoideum 2174 1932 1766 848 P. falciparum 772 731 613 470 S. pombe 1465 1473 1230 673 S. cerevisiae 1652 2160 1878 834 C. elegans 5088 3360 2829 1137 S. scrofa 18418 8405 7335 1602 B. taurus 9905 8492 7363 1606 C. familiaris 11153 8225 7093 1599 M. musculus 12769 9560 8331 1620 R. norvegicus 11754 8682 7498 1606 *H. sapiens 10763 11674 11896 2222 G. gallus 12305 7462 6420 1631 T. guttata 7394 6350 5354 1500 X. tropicalis 9363 7434 6390 1562 D. rerio 14261 7362 6286 1561 D. melanogaster 9959 4806 4023 1391 A. thaliana 6522 1901 1729 790 O. sativa 13433 1835 1677 786 M. tuberculosis 13 47 39 12 Pathway Browser 现在就来体验一下!在首页点击 Pathway Browser 进行通路检索。 界面介绍 标记1处 选择物种; 标记2处 可以按照不同的生物功能来检索自己所需要的通路; 标记3处 的大框是不同的生物反应按照模块划分组成的多个烟花状的有向无环图; 1 )在此方框中,结合 滚轮 可以放大缩小通路图; 2) 也可以通过右下角的操作按钮来放大缩小通路图,通过方向按钮调节整个画面; 3)右上角可将当前画面下载成 PNG 或者 PPTX ( 你和PPT高手之间,就只差一个iSlide )的格式; 4) 网页右侧还有半隐藏的一个工具,鼠标放上会弹出,在这里可以 修改通路图的背景色 等; 标记4处 是对当前所选通路的描述、参与该通路的所有分子、通路中相关基因的表达等; 可以通过特定关键词(比如基因、小分子、代谢产物)检索相关通路,这里以 Developmental Biology 为例,直接在左侧点击即可。 Pathway通路都是一层层往下递进的,最高层的通路含有太多路径,无法单个详细显示。从而该数据库以形象生动的图形化方式将 Developmental Biology 通路下9个子通路简洁地展现出来。 刚刚所说的标记3的展示框中,点击左上角第三个图标可以切换 pathway overview 和 open pathway diagram 两种视图效果。点击一下,便可以切换到烟花状的有向无循环图形式。 根据自己的研究选择感兴趣的通路,在此我们以 HOX基因 在后脑发育的早期胚胎发生过程中的激活为例。 在 Activation of anterior HOX genes in hindbrain developmentduring early embryogenesis 通路中有许多关键的反应,点击一个感兴趣的,视图界面跳转至对应的通路图。 Details Panel Discrimination 此部分是对选定通路的概述、研究进展和重要发现,参考资料和作者信息等。 Molecules 展示了通路中包含的所有分子,包括 化学成分、蛋白、基因 。点击右侧 + ,将详细条目展示出来,点击 蓝色编号 将跳转至相应的其它数据库。点击 Download 可将数据下载下来。 Structures 对于一个反应,此处展示的结构图来自Rhea数据库;对于简单的分子,展示的结构图来自ChEBI;而若是一个含蛋白质的通路,则显示来自PDBe的蛋白3D结构。 Expression 此部分展示参与上面所选通路的所有基因表达情况,表达数据来自 基因表达图谱 。可点击 download 下载基因表达数据以进行后续的个性化分析。 Analyze Data 该数据库除了可以检索通路外,在首页点击 Analyze Data ,还可进行基因分析。 该工具 支持两种类型的分析 ,第一种是分析一系列基因涉及到哪些具体的通路,另外一种是对比物种间的通路差异。 两种分析显示的方式相同,都通过对通路标黄来显示(颜色可自行调整) 。这里我们利用数据库中提供的数据查看了某一些基因的通路,结果如图所示。 Cytoscape里reactomeFIPlugIn 插件使用 Cytoscape是一个功能强大的网络互作分析工具,之前有介绍。在腾讯课堂 ( https://bioinfo.ke.qq.com )有免费视频可看。 Cytoscape教程1 Cytoscape之操作界面介绍 新出炉的Cytoscape视频教程 在Apps里有众多的插件工具用来实现不同的分析功能,同时还能 与很多数据库关联 ,直接在电脑本地调用数据库中的数据进行网络分析,可以说是非常的方便啦! 下面介绍的 reactomeFIPlugIn 插件便可以实现利用cytoscape在本地调用reactome数据库中的数据,让用户轻松在软件中进行各种分析。 1. 首先按照下图所示步骤选择 Apps 下的 App Manager ,在Search框中输入插件名,点击 Install 安装 reactomeFIPlugIn 2. 安装好的插件将保存在Apps下,在工具栏依次点击 Apps/Reactome FI/Reactome Pathways ,cytoscape将通过网络加载Reactome数据库中的通路信息( https://reactome.org/PathwayBrowser/ ),加载完成后各通路将显示在左侧 Control Panel 处。 3. 选择感兴趣的Pathway,点击鼠标右键,在弹出菜单中选择 View Reactome Source ,可以查看该通路在Reactome中的详情注释;或者选择 View in Reactome 将跳转至Reactome网页查看详情。 4. 在上述右键弹出菜单中选择 Search ,输入想查找的Pathway,查找到的Pathway将以 蓝色背景凸显 。 5. 在鼠标右键弹出的菜单栏中选择 View in Diagram 或 Show Diagram Show Diagram :如果选定的路径有自己的路径图,可以在弹出菜单中选择 Show Diagram ,将其路径图显示在Cytoscape中央。 View in Diagram :如果选定的路径布局为较大的路径中的子路径,则可以在弹出菜单中选择 View in Diagram 查看通路图。打开图表后,所选路径包含的反应将以 蓝色突出 显示。 6. 在Cytoscape中央通路图的空白区域点击鼠标右键,选择弹出菜单中的 Convert to FI Network ,可以将通路图转换成功能互作网络图,原始的通路图将在cytoscape的左下角显示。 7. 鼠标右键在跳出的菜单栏中选择 Analyze Pathway Enrichment 可进行Pathway富集分析,此时会弹出一个框,要求选择上传一个基因集文件。该文件可以是一下三种格式中的任一一种:1)每行一个基因;2)所有基因以逗号分隔放在一行;3)所有基因以制表符分隔放置在一行。 1)基因富集的通路 根据FDR值以不同的颜色背景凸显 ; 2)基因富集的通路信息在Table Panel中展示; 3)使用 View in Diagram 或 Show Diagram 在通路图查看命中的pathway,并可以在通路图结果展示面板中点击鼠标右键后,选择 Export Annotations 将当前通路图保存下来。 后面的皆可以参考 https://bioinfo.ke.qq.com 免费视频中Cytoscape的使用来把基因表达信息或修饰信息映射到网络图进行更多展示了。 GO、GSEA富集分析一网打进 GSEA富集分析 - 界面操作 Bedtools使用简介 OrthoMCL鉴定物种同源基因 (安装+使用) Rfam 12.0+本地使用 (最新版教程) 轻松绘制各种Venn图 ETE构建、绘制进化树 psRobot:植物小RNA分析系统 生信软件系列 - NCBI使用 去东方,最好用的在线GO富集分析工具 2018 升级版Motif数据库Jaspar 一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点 拿到基因两眼一抹黑?没关系,先做个基因富集分析吧! 科研小萌新,掌握这些技巧,轻松玩转各个基因! 引起相变的无序结构域(IDRs)怎么预测?跟踪热点,提升文章档次! 如果你经常用PubMed,那么这个插件将非常好用!
个人分类: 生物信息|12864 次阅读|0 个评论
cog ko kegg online annotation
zoubinbin100 2016-10-22 20:31
https://www.arabidopsis.org/tools/bulk/go/ http://www.genome.jp/kaas-bin/kaas_main http://weizhong-lab.ucsd.edu/metagenomic-analysis/server/cog/ : http://seqanswers.com/forums/archive/index.php/t-51326.html http://megasun.bch.umontreal.ca/Software/AutoFACT.htm ftp://ftp.geneontology.org/pub/go/www/GO.tools.annotation.shtml http://eagl.unige.ch/GOCat/ http://agbase.msstate.edu/cgi-bin/tools/GOanna.cgi https://www.arabidopsis.org/Blast/ https://omictools.com/genome-visualization-category
个人分类: 生物信息|1 次阅读|0 个评论
生物信息——kegg分析的kobas软件的安装与使用
热度 1 sunpc 2016-3-10 21:18
关于kegg的ko和K的分析,本以为可以通过interproscan来获取,谁知跑出来的结果只涉及新陈代谢,不能使用。最终还是使用北大开发的kobas做的kegg分析。 关于kobas的简介,这里有网址 http://kobas.cbi.pku.edu.cn/help.do ,这个网址支持在线分析,不过对于gene数目大于500的,就不支持了。需要后台运行,kobas。当然,他们的服务器是可以外租的,具体价格我不清楚。如果你有一台linux系统,我建议你还是自己安装上比较好。 从 http://kobas.cbi.pku.edu.cn/download.do 这个页面,可以下载安装。里边的 installation 里边有具体的安装需要的配置和安装命令。依照给出的命令,大部分可以直接安装。不过,我在安装过程中,遇到两个小问题,大家可能会遇到,具体碰到的问题如下。问题1 R的安装。网上给出的linux的R安装,好多是不完全正确的,因为我们后边需要安装rpy2,即需要用python调用R语言,需要R自己编译出 path-to-R/lib/libR.so libRblas.so、libRlapack.so 库,所以,在安装R的时候,需要添加 --enable-R-shlib 。安装完成后,在/etc/profile 中添加R的路径,具体需求如下 export R_HOME=/usr/local/R-3.2.1/lib64/R export R_LIBS=$R_HOME/lib64/R/library export LD_LIBRARY_PATH=$R_HOME/lib:$LD_LIBRARY_PATH export PATH=$R_HOME/bin:$PATH 保存后,source /etc/profile ,然后在命令窗口输入R,查看R的第一行,是否有R_HOME不识别的问题。如果出现warning,很有可能是R_HOME的路径不对,进入R环境,输入 Sys.getenv(R_HOME) 检查是否一致,不一致修改一下就好了。 然后安装rpy2,输入pip install rpy2,如果安装没有任何报错,就说明安装好了。 后边其他的安装就比较简单了。就不介绍了。 具体怎么运行,在scripts下边./annotate.py -help 就会有提示了。 如果我说的不对,或者没解决你的问题,就留言吧!
个人分类: linux|25042 次阅读|2 个评论
KEGG XML
ljxue 2013-2-1 05:22
http://www.biostars.org/p/1657/ Question: How to use the KEGG xml files? Three tools are mentioned there: KGMLreader KeggGraph http://kgml-ed.ipk-gatersleben.de/Introduction.html
个人分类: Bioinformatics|2992 次阅读|0 个评论
[转载]再学KEGG
yuqingtan33 2013-1-27 17:40
今天用blast2go进行KEGG分析,结果不行。请教得出可以利用KAAS,于是查了查,没有多少时间去学,明天要回家,先存个找的这个不错的帖子。后面再学 KEGG,Kyoto encyclopedia of Genes and Genomes ,不多说。 KEGG的数据 KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外 KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。下面就首先来讲一下KEGG orthology。 任找一个代谢通路图,在上方有pathway meue | payhway entry | Show(Hide) description | 这3个选项,点击pathway entry, 出现了一个页面,这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的pathway map项中点击按钮状的链接Ortholog table 。就进入了Ortholog table如下的页面: 在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写,比如has表示Homo sapiens,mcc表示Macaca mulatta;列就表示相应的Ortholog分类,比如K00844就表示生物体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类(酶类)。如上图has后有3101,3098,3099这3个条目,它表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。空白则表示在该物种中不存在这种酶。 点击K00844则这一KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击P,则显示相应的代谢通路。下面我们点击3101,如下: 如上图,就是我们常见的一个页面,3101是KEGG中的基因ID(登录号), H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个KO分类以及参与哪些代谢途径;下面还有结构、序列信息等等。 所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。 怎么看KEGG中代谢通路图 比如以上这个图,方框一般就是酶,方框里面的5.4.2.2不是IP 而是EC编号;小圆圈代表代谢物,你把鼠标放上去,(别放我这上面,放KEGG中去)会出现C00668的东西,C代表compound,00668是这种化合物在KEGG中的编号,一般在KEGG中数据条目都是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代谢图了,所以就不展开了。 但是:为什么这个图上有的小框框是绿色呢?(这是绿色吧?我蓝绿不分的,下同) 因为这是一张特定物种(S. cere. 酿酒酵母)的代谢图,蓝色的框框表示专属于这个物种。在KEGG中有两种代谢图,一种是参考代谢通路图reference pathway,是根据已有的知识绘制的概括的、详尽的具有一般参考意义的代谢图,这种图上就不会有绿色的小框,而都是无色的,所有的框都可以点击查看更详细的信息;另一种就是像上面这样的属于特定物种的代谢图species-specific pathway,会用绿色来标出这个物种特有的基因或酶,只有这些绿色的框点击以后才会给出更详细的信息。这两种图很好区分,reference pathway 在KEGG中的名字是以map 开头的,比如map00010,就是糖酵解途径的参考图,而特定物种的代谢通路图开头三个字符不是map而是种属英文单词的缩写(应该就是一个属的首字母+2个种的首字母)比如酵母的糖酵解通路图,就是sce00010,大肠杆菌的糖酵解通路图就应该是eco00010吧。 那么:怎么找这两种图呢? (1)有下拉列表的时候,在列表选择reference 或者是特定物种即可。 (2)在pathway检索的页面 http://www.genome.jp/kegg/pathway.html ,如下图: 默认的就是map,参考图,你想要什么物中的代谢图写上它的名称就好了(种属缩写),如果不知道是哪3个字母,点击organism 选择即可。(不过你点进去也是一片空白,你要提示两个字母才会给出下拉条目) 顺便问一下:怎么找基因呢? 还是上面这张图,看到了吗,除了PATHWAY之外是不是还有 BRITE、DISEASE..以及GENES等等,点击基因GENES,就可以查找基因了,如下图: 不过这里要按一定的格式(org:gene)输入要查找的目的基因,比如它给出的示例:syn表示物中,ssr3451表示基因ID,查找出来的基因名称是psbE。其实我试了一下,若直接检索基因名称(而不是KEGG中的基因ID)syn:psbE 也是一样的。因为我不知道KEGG中基因ID如何编制的,但是,我同时也不知道基因的名称是如何定义的。比如果糖1,6-二磷酸酶Fructose 1,6-biphosphatase 的基因就叫fbp,我放进去能检索,但是我把有名的gal填上去就不能检索,当然这可能与基因后面的乱七八糟的序号后缀有关,比如填上gal1就能检索了,所以我真不知道基因到底怎么命名的?当然我在syn中没找到gal1在sce中检索到了,这也说明了基因果然不是乱长的。 依旧是上面这个图,看到KEGG2了吗?点击。也会出现检索框,这是一个总体性地检索框,在这里面输入关键词,代谢通路也好,glycolysis也好, gal也好,化合物也好,没那么多限制,KEGG中的相关东西都会检索出来,在这里浏览一下,再进行后续检索,也是一个不错的方法。 当然,代谢通路图,还有其他的查看形式(比如以KO查看),以及图上可以点击,链接到这链接到那,点来点去总能点出奇怪的页面来,熟悉一下也就熟悉了,这些东西会很有用,所以我就不说了。下面讲一下KEGG的自动注释功能。 KEGG的自动注释 KEGG Automatic Annotation Server,KEGG的自动注释服务简称KAAS。在线网址为 http://www.genome.jp/tools/kaas/ 。就是你提交一段蛋白质序列或者基因序列(必须是fasta格式),它自动在内部进行相似性比对,找到最相似的基因,并确定检索基因的KO分类,然后给出这些基因所在的代谢通路并以以不同的颜色标示这些基因。如下图: 我在help中随便复制了它的两条示例氨基酸序列,然后粘贴到检索框中,进行了检索。检索框默认的蛋白质序列,如果不是的话要改选。然后填上一个邮箱地址,点击又下角的compute即可。不出意外的话,你在接下来的页面中应该看不到任何结果,甚至连提示都没有,原来它把结果发到你邮箱去了。我也不明白就一个网页链接为什么还硬要发送到邮箱。 首先发你一封信说已经接受,并给你一个期待结果显示的网址,一段时间后,会发你另外一封邮件,说已经完成。打开它给的网址,就能看到结果了,如下: 看来从1:20开始计算到1:50 才结束,两条氨基酸链计算了30分钟(不过我感觉没这么长呀)。人家说了,计算时间是与要和检索序列对比的目标序列成正比,因此在检索的时候最好限制一下检索范围。 点击html 有两条代谢通量图的条目,点开他们就可以直观地看出我们检索的未知序列在代谢通路中的位置和作用了。Text给出的是两个KO分类。 好像北京大学的生命科学学院也搞了一个KOBA,也是基于KEGG 中的KO进行注释的一个服务,应该和这个差不多吧。 代谢通路的着色 怎么在KEGG检索出来的代谢通路中给特定的一些化合物或者基因(酶)着色以高亮显示呢? 进入网页 http://www.genome.jp/kegg/tool/color_pathway.html ,或者由pathway主页的Color objects in KEGG pathways进入,看图: 如上图,search against 下拉出你可供选择的代谢通量图,总所周知的一个很烦人的问题就是,在这些下拉列表中,条目排序竟然是乱七八糟的很难索引。还好我发现把焦点定在这个下拉列表的最顶端的文本框上(即文本框变成选中的蓝色),然后在键盘上拼写你要的那个物中的英文单词,只需要拼两三个字符相应的代谢通量图就出现在顶端了。比如我要找酵母的代谢通量图,只需要在文本框变蓝的时候拼写“sacc”这几个字符“Saccharomyces cerevisiae(budding yeast)”就自动被置于上面了。或者不把焦点集中在文本框中也行,但是你要很快地拼写sacc,否者的话焦点会在以这几个字符开头的条目之间切换。 如上图,右边有示例,这个貌似不要太简单。想给谁着色就把它写出来后面跟上颜色就好了,一个一行。比如写上C00118 blue 就表示在代谢通路图中把C00118这种代谢物(3-磷酸甘油醛,GAP)给着上蓝色。但是大家也看出来了,着色可以自定义背景色,也可以同时定义前景色。我曾一度琢磨前景色是干嘛的,琢磨半天发现没用。背景色就是把方框或者圆圈涂成选定的颜色,这自然是要的;而前景色是谁的颜色,就是方框里面的5.4.2.2 这几个数字的颜色,或者是小圆圈圆周的颜色,这有必要定义吗,所以后面直接跟一种颜色就行了。 然后就可以了。我随便弄个gal1想去着色,KEGG突然说在酵母中找不到gal1,怎么可能找不到呢?我前面还在GENES中搜过呢,分明是酵母,分明是gal1,分明搜的到,我当时还大为兴叹,唉,看来基因果然不能乱长啊,怎么可能一顿饭就说找不到了呢?我又回去搜里一下,确实搜的到,我再回来着色还说找不到。发现没有哪里不对呀,难道在这里KEGG着色只能输入基因ID而不能输入名称?不是,输入基因ID能给着色,基因名称也应该能给… 哈哈,我突然大笑起来,一定是KEGG区分大小写了!果然,我把搜到的GAL1输进去,好了!用gal1又不行了。我突然觉得好玩起来,就一次次地改大小写,一次次地看它给出的错误报告,一次次得意地嗤笑它的弱智。既然区分大小写,那red能着红色,Red、RED肯定就不认识了,果然改写一个大小写的red就没反应了,c00118也不认识了。前面那么多检索一直都不区分大小写的,在这里怎么区分大小写呢?KEGG显然把这点疏忽了。 着色结果如下:(红色的就是GAL1的酶,右上角的就是C00118) 代谢物还好,如果要着色酶,没必要去找基因,还免得像我那样麻烦,直接在输入框中输入相应的酶就好了,比如ec:2.7.1.6 red(ec 要小写) 跟 GAL1 red 是一样的。或者直接写 2.7.1.6 red 也是一样的。 这种着色功能还可用于对比(或寻找)两个不同物种的一些基因,或者根据芯片数据,直观地示意一些基因的表达调控。着色内容也可以预先按以上规定的格式写在文本文件中,然后直接浏览导入也行。 基因芯片数据的分析 我对基因芯片数据(表达谱)的分析也是蛮感兴趣的。利用基因芯片的表达数据,分析不同实验条件下的一些上调或下调基因,并与生物通路结合起来,用不同的颜色来直观地反映代谢通路中各基因表达的变化情况,可以为更好地研究代谢网络提供了很大的帮助。以前出去听人家讲课,只知道GenMapp不错,可以把基因芯片数据和通路结合起来,没想到在KEGG中也可以实现这一功能。 进入网页 http://www.genome.jp/kegg/expression/ 。网页左边是KEGG自身拥有的一些基因表达数据集 KEGG EXPRESSION Database。网页的右边KegArray就是要进行芯片分析的工具了。在KEGG EXPRESSION 下面,点击“list of experimental data available”,就打开了KEGG中的基因芯片数据,见下图: 这是芯片数据的一个目录层次,箭头向右和向下分别表示收起和展开数据。我们以上图中的第一条数据为例,即Suzuki et al. 做的关于Synechocystis PCC6803 冷激响应的一条数据ex0000012, 点击这个数据,在打开的页面下面有个option 列表,点击 Launch KegArray,加载这个应用程序来分析这条数据。出现如下对话框: 问你是打开还是保存,打开就相当于临时用一下,网页关掉就没了;保存就是把这个软件下载到自己的电脑上,以后还可以用。你先打开试试吧,这个不是关键,关键的是你可能打不开这个文件。大家都知道,生物信息学的一些软件往往要求安装JAVA才能运行,我JAVA早就安装了,但是仍然告诉我打不开这个文件,我看了一下文件格式,是什么JNLP格式的没见过,看看属性,又从网上搜搜,说需要 java web start 才能打开和运行,我安装了JAVA,java web start 在哪里找到和启动,查了半天也没个头绪,忽然一想,java web start 肯定在JAVA安装文件夹里,取首字母缩写,很有可能是 javaws.exe,我一搜还真在安装文件夹里搜到这个执行程序了,用作JNLP的默认打开方式,立马就呼呼地启动了。出现了如下的界面: 图中的File Name、Organism还都对,下面的参数一般都是默认的,不需要改。右边还有一个统计图,用以显示上调、下调和不调的基因数目比例。绿色表示下调,红色上调,黄色无明显差异(之前有文献说红色是下调,搞的我迷糊了好大一阵子!)。 那怎么在生物学通路中看这些基因的调整情况呢? 看到最下面的 Mapping to 了吗,选择pathway(默认的也是pathway),GO一下,就OK了。然后它就会把这个芯片数据涉及到的基因所在的通路图列出来,并在通路中用不同的颜色标明基因表达差异。如下图(选取的是嘌呤代谢通路的一部分) 绿色表示基因下调,黄色表示没明显变化,灰色是什么,这个可能species-specific 基因,与芯片无关的吧。那怎么没红色? (1)通路中本就没有基因上调 (2)虽然绿色表示下调,红色上调,但是在他们之间有过渡的颜色,比如某个基因只是稍微上调,因此不能大红大紫,只能呈现过渡的暗黄色。如果你一定有见红情结的话,那你可以在help 菜单中选择preferences,把颜色梯度改成1,即下调就是绿色,上调就是红色,没中间余地。此时一旦有所上调不论多少都是大红。(呵呵) 除此之外,看到了吗,KegArray还有一个做聚类Clustering的命令,你可以点击GenomeNet从KEGG中选择芯片数据进行聚类,不过貌似做得很简单,也没有红绿颜色。 当然,你可以选择KEGG其他芯片数据进行类似分析,可可以从本地导入其他的芯片数据。也可以把KegArray保存在本地运行,但是不管怎样,不管你选在KEGG中选了那条数据,需要指出的一点是,当你再运行KegArray时,加载的数据总是你第一次使用的数据。比如我即使在KEGG中选择ex000013 而不是ex000012,然后 launch KegArray, 启动后出现的数据依旧是我第一次分析的数据ex000012而不是ex000013, 只有打开以后,点击GenemoNet重新选择芯片数据。而KegArray本身又找不到可以设置这些东西的地方,真不知道KEGG想要干嘛! KGML与通路编辑 这个我不打算多讲,因为我自己也在踌躇着要不要学习呢。 KGML,即KEGG Markup Language的简称,我自己的理解就是它包含代谢通路中各组件以及各组件之间的相互联系,因此是代谢通路构建的指令。在KEGG中可以以xml的格式进行下载: ftp://ftp.genome.jp/pub/kegg/xml/ 。 据说这种KGML文件,打开时,能以另一种方式查看代谢通路,即酶和化合物之间的各种交叉联系,我很想看,但郁闷的是,我xml也下了,一个叫什么KGML DTD的也下了(见 http://www.genome.jp/kegg/xml/ ),但是打开后没反应啥图也没有。可能需要一些专门的软件才能打开吧,比如VisANT, GenMAPP, PathwayExpert等。 另一方面就是越来越多的软件开始支持并应用到KGML了,但是我感兴趣的是有些软件已经能够基于KGML进行KEGG代谢通路的编辑了。单是一个图的话,用PS修饰或许也能搞定,但是如果是大规模地建模或修改代谢通路,显然需要这些软件。 有个软件KGML-ED( http://kgml-ed.ipk-gatersleben.de/Introduction.html ),安装竟然需要1.6的java版本,我用1.5的试了试,还真不行... 其他的软件有的能把KGML转换成SBML(如KGMLConverter),貌似SBML也是生物学软件中主流的东西,能建模能可视化。不知道有没有人知道呢? 最后做个总结吧,KEGG也是一个很全面的数据库,不仅是代谢通路,基因信息,化合物反应等数据也是很不错的,但是难免又有一些疏忽之处,比如,着色输入框区分大小写,KegArray启动时数据不对等,总的来讲还是很cool的数据库。有越来越多的科研者基于KEGG开发了一些实用的工具, 比如基于KEGG KO的注释工具KAAS( http://www.genome.jp/tools/kaas/ ) , KOBAS ( http://kobas.cbi.pku.edu.cn/home.do )等, 基于KEGG KGML的通路建模工具KGML-ED, KGMLconverter等,相信大家对KEGG的利用会越来越充分的。另外,KEGG也在不断的发展和更新中,本文中的一些页面都有可能改动和变化,希望后来交流者,有所知晓,也希望大家一起分享经验。 本文转自: http://neobe110.blog.163.com/ 第一种:就是用genes.pep ftp://ftp.genome.jp/pub/kegg/genes/fasta/ 然后和自己的数据BLAST,再通过KO文件,找同源高的序列KO注释,再通过PATHWAY和KO的关系,找PATHWAY注释 另外,第二种是 下载KEGG的网上已用KO注释过的物种,例如植物的,动物的,真核的,原核的,KEGG的网站上有,然后BLAST,这样就少了找KO注释的那一步了,直接可以找PATHWAY KEGG对物种分类注释的: http://www.genome.jp/kegg/catalog/org_list.html 分类的物种 ftp://ftp.genome.jp/pub/kegg/genes/organisms/
个人分类: 软件数据库|6119 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 12:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部