科学网

 找回密码
  注册
科学网 标签 Geo

tag 标签: Geo

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

上传NGS数据到GEO
热度 1 hayidahubei 2018-12-4 07:38
以下信息都是基于个人最近一年的经验。GEO网站可能会更新,具体信息可以登录GEO官网查看。 上传数据官网: https://www.ncbi.nlm.nih.gov/geo/info/submission.html 1 注册账号 https://www.ncbi.nlm.nih.gov/account/register/?back_url=/geo/submitter/ 2 文件准备:上传的文件包含三部分(一个 Excel 表格,处理的数据文件,原始数据) 详情请根据以下网站 https://www.ncbi.nlm.nih.gov/geo/info/seq.html 第一部分是一个 Excel 表格( a metadata spreadsheet )里面有本次课题的基本信息,所有文件信息。按要求填好。 metadata spreadsheet 的模板可以从以下链接下载: https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template_v2.1.xls 第二个部分是 processed data files. 包含完整的表达谱(行基因,列样本,值可以是标准化后的也可以是原始的 read count ), peak 信息文件( bed, txt ),可视化文件 (bigwig, WIG, bedGraph) 等 . 我一般会准备一个表达谱(RNA-seq)或者bigwig和peak文件(ChIP-Seq) 第三部分是原始数据,对于 NGS 数据而言就是原始的 fastq 文件。但是这里 GEO 强烈建议上传压缩的文件。我一般都是压缩为 .gz 文件 将准备好的三部分文件全部放到以你账号名相同的文件夹中。 例如你的账号名为“ zhangsan ” , 你就需要创建一个文件夹名字为“ zhangsan ” , 然后将所有文件放到这个文件夹中。 3 上传文件(这里仅以 FTP 为例) https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html#creds 我用 FileZilla 登录 GEO ( host , ftp-private.ncbi.nlm.nih.gov; username, geo; password, ****** )。具体账号信息网页上会有。 登录上 GEO 后直接将上面的文件拖拽到 GEO,如下图所示 4 通知 GEO 你已经上传完文件。 https://submit.ncbi.nlm.nih.gov/geo/submission/ 我每次都是通过两种方式通知 GEO 。第一种方式是通过以上链接,第二种方式是通过 email ( geo@ncbi.nlm.nih.gov ) . Email 内容如下: \0 \0 5 等候 GEO 的回信。我一般在两天内收到回信,里面会给你一个 GSE 号 6 文章接收后就可以登录 GEO 修改数据状态, release 你的数据
6618 次阅读|1 个评论
基因表达芯片数据分析——Agilent
热度 1 feilei1986 2017-7-7 10:37
【背景知识】 了解下数据格式 GEO数据库基础知识 GEO Platform (GPL) 芯片平台 GEO Sample (GSM) 样本ID号 GEO Series (GSE) study的ID号 GEO Dataset (GDS) 数据集的ID号 【实例操作】 以蔡南海lab发表的Genome research-2014-Wang文章为例: ATH NAT array数据上传至NCBI GEO, GSE49382 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE49382 注意这个芯片平台Platforms,这个就是 芯片探针与gene的对应关系。 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL17515 【数据下载】 利用R包来进行下载——GEOquery 纯文本查看 复制代码 ? 1 2 3 source( http://www.bioconductor.org/biocLite.R ) biocLite(GEOquery) library(GEOquery) 下载GSE返回的对象--直接根据GSE号下载 纯文本查看 复制代码 ? 1 2 3 # 下载基因芯片数据,destdir参数指定下载到本地的地址 gse382-getGEO('GSE49382',destdir =.)##根据GSE号来下载数据,下载_series_matrix.txt.gz gpl515-getGEO('GPL17515',destdir =.) ##根据GPL号下载的是芯片设计的信息, soft文件 纯文本查看 复制代码 ? 1 2 3 4 ###已经下载好的数据从此开始########## # 打开已下载的本地数据 gse382-getGEO(filename ='GSE49382_series_matrix.txt.gz') gpl515-getGEO(filename ='GPL17515.soft') 【数据分析】 用limma进行差异表达分析 自己做好三个数据矩阵(表达矩阵,分组矩阵,差异比较矩阵),然后limma的三个步骤(lmFit,eBayes,topTable)就可以啦 纯文本查看 复制代码 ? 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 # 查看列名 colnames(Table(gpl515)) Table(gpl515) # 前10行前4列信息 # 保存自己想要的信息,在此例中c(1,4),即第一列和第四列,分别是gse382中的行名ID和其对应的gene name write.csv(Table(gpl515) ,GPL515.csv,row.names =F) # gse382中的行名ID与gene name的对应关系 genename =read.csv(GPL515.csv) # 构建表达矩阵 exprSet -as.data.frame(exprs(gse382))# 得到表达矩阵,行名为ID,需要转换 # 转换ID为gene name exprSet$ID =rownames(exprSet) express =merge(x=exprSet,y=genename,by=ID,all.x =T) express$ID =NULL # 去除重复的gene ,保留每个基因最大表达量结果 # 参考: http://www.biotrainee.com/thread-113-1-1.html rowMeans=apply(express,1,function(x)mean(as.numeric(x),na.rm=T)) express =express express =express ),] #express第28列为gene name rownames(express)=express express=express # 至此,表达矩阵(express)已构建好 # 构建分组矩阵 # 参考: http://www.bio-info-trainee.com/1194.html pdata =pData(gse382)# 每个sample所对应的信息,包括处理条件等 group_list =subset(pdata,select=title)# Sample的分组信息 group_list$condition =rep(c(c0,h0,r0,c1,h1,r1,c6,h6,r6),each=3) design =model.matrix(~0+factor(group_list$condition)) colnames(design)=levels(factor(group_list$condition)) rownames(design)=colnames(express) # 至此,分组矩阵(design)已构建好 # 构建差异比较矩阵 # 参考: http://manuals.bioinformatics.uc ... lly-Expressed-Genes contrast.matrix =makeContrasts(c0-c1,c0-c6,h0-h1,h0-h6,r0-r1,r0-r6,levels =design) # 至此,差异表达矩阵已构建好 fit =lmFit(express,design) fit2=contrasts.fit(fit,contrast.matrix) fit2=eBayes(fit2) # 得到两两差异表达的结果 # c0 vs. c1 x =topTable(fit2,coef =1,n=Inf,adjust.method =BH,sort.by=P) sum(x$adj.P.Val0.05) re =x # 选取adj.p.value0.05且|logFC|1的基因 write.csv(re,c0-c1_DEG_limma.re.csv,quote =F) # coef可是column number,也可以是column name,这样就可以指定你所感兴趣的两两比较的结果 # 在此例中coef =1 就是c0-c1的差异表达比较结果 纯文本查看 复制代码 ? 1 2 # 查看差异表达结果分组情况 results =decideTests(fit2,p.value=0.05) 矩阵中1代表显著上调,-1代表显著下调,0代表无显著差异 【参考】 用GEOquery从GEO数据库下载数据 http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html 芯片探针注释基因ID或者symbol,并对每个基因挑选最大表达量探针 | 生信菜鸟团 http://www.bio-info-trainee.com/1502.html 没有必要用R包GEOquery | 生信菜鸟团 http://www.bio-info-trainee.com/1571.html limma分析参考: R Bioconductor - Manuals http://manuals.bioinformatics.ucr.edu/home/R_BioCondManual#TOC-Analysis-of-Differentially-Expressed-Genes 用limma包对芯片数据做差异分析 | 生信菜鸟团 http://www.bio-info-trainee.com/1194.html
个人分类: 数据分析|22636 次阅读|1 个评论
利用R获得GEO芯片表达谱数据
chuanpengdong 2016-5-4 09:08
我认为在实验万事屋郭大侠已经讲述了GEO芯片R语言处理的最直接基本的一些流程,还讲得非常生动,也给了完整的R语言code,非常珍贵。 实际上,GEO中很多芯片已经给了RMA法处理后的值,可以直接使用,这时候就可以直接将下载下来的处理后的值直接将probeid转换为genesymbol既可以直接使用。 我从中将此段代码截下: #################### setwd(D:\\test) #读取基因表达文件 probe_exp-read.table(GSE29621_series_matrix.txt,header=T,sep=\t,row.names=1) #读取探针文件 # Note that the first column be probeid, 2rd to be Genesymbol and 3th to be EntrizID probeid_geneid-read.table(GPL570-13270.txt,header=T,sep='\t') probe_name-rownames(probe_exp) #probe进行匹配 loc-match(probeid_geneid ,probe_name) #确定能匹配上的probe表达值 probe_exp-probe_exp #每个probeid对应的geneid raw_geneid-as.numeric(as.matrix(probeid_geneid )) #找出有geneid的probeid并建立索引 index-which(!is.na(raw_geneid)) #提取有geneid的probe geneid-raw_geneid #找到每个geneid的表达值 exp_matrix-probe_exp geneidfactor-factor(geneid) #多个探针对应1个基因的情况,取平均值 gene_exp_matrix-apply(exp_matrix,2,function(x) tapply(x,geneidfactor,mean)) #geneid作为行名 rownames(gene_exp_matrix)-levels(geneidfactor) geneid-rownames(gene_exp_matrix) gene_exp_matrix2-cbind(geneid,gene_exp_matrix) write.table(gene_exp_matrix2,file=GSE29621.NAcheck.exprs.txt,sep='\t',quote=F,row.names=F) #将gene id 转换为gene symbol loc-match(rownames(gene_exp_matrix),probeid_geneid ) rownames(gene_exp_matrix)=probeid_geneid genesymbol-rownames(gene_exp_matrix) gene_exp_matrix3-cbind(genesymbol,gene_exp_matrix) write.table(gene_exp_matrix3,file=GSE29621.genesymbol.exprs.rma.txt,sep='\t',quote=F,row.names=F) # The end #################### 最后把两个中间文件删除,这两个也没顾得去除,人家有就直接用就好。。。 附上pdf
个人分类: 生物信息|2 次阅读|0 个评论
Wiley与皇家地理学会(RGS-IBG)合作出版新刊Geo!
WileyChina 2014-8-13 09:44
Wiley 与皇家地理学会( RGS-IBG ) 非常荣幸地宣布本周 Geo: Geography and Environment 期刊上线。该期刊将成为学会第一本 完全开放获取的期刊 ,也让 RGS-IBG 和 Wiley 成为了世界地理学研究出版物中的领头羊。 Geo 属于该领域中的 第一批刊物 ,专注于出版 地理与环境相关领域 高质量的论文原文。它的范围涵盖了多个学科分支,跨越自然科学、社会科学以及人文科学。该期刊主要关注在国际上有重要意义的研究,也欢迎地理学研究领域中有新想法的来稿,希望能推动地理学研究方法的发展并追踪地理学热点问题的探讨。 RGS-IBG 研究与高等教育部门主管, Catherine Souch 博士说:“我们很高兴能和我们的合作伙伴 Wiley 联合推出这本期刊,它将成为地理学和环境学研究发展进程中的一个先行者。”她同时也表示:“我们提供期刊的开放获取,是践行 RGS-IBG 的承诺——我们要出版并传播 高质量 的研究文章给最广大的读者群。” Geo 的主编是 埃克塞特大学 的 Gail Davis 教授和伦敦大学学院的 Anson Mackay 教授。“在科学领域‘开放获取’这四个字愈发成为主流,这既是一个机会,也是一个巨大的挑战”, Davis 教授说,“开放获取有很多的内涵,而对于开放渠道的理念仍然存在争议。 RGS-IBG 现在就在积极地引导这个讨论的走向,能担任 Geo 的编辑我感到非常荣幸。” Geo 将在创作共享许可证下发表文章,允许作者遵从他们申请的基金组织的开放获取要求。更多内容以及发表文章的信息,敬请访问 Geo: Geography and Environment on Wiley Online Library 。 主编简介 : Gail Davis 教授毕业于牛津大学,并在伦敦大学学院地理系取得了博士学位。从 1997 年至 2012 年,她在伦敦大学学院地理系教书,随后在 2013 她到了埃克塞特大学任教。 Gail 同时也是皇家地理学会成员、美国地理学家联合会以及科学社会研究协会的成员。 Gail 的主要研究方向是追踪地理学在科学技术领域的变化;关注自然、非人类及生物学之间的关系与区别等。 AnsonMackay 教授于爱丁堡大学获得生物学学位( 1989 年)并在曼彻斯特大学取得了他的环境科学博士学位( 1993 年)。在 1992 年他加入了伦敦大学学院地理学系的博士后研究团队,到了 2000 年他才作为正式全职教师在地理学系工作。目前他担任伦敦大学学院社会与历史科学院副院长及英国地质调查局客座研究员。 Anson 的主要研究领域是评估人类与气候对世界上标志性的淡水生态系统的影响,如贝加尔湖等。
个人分类: Life Science|2106 次阅读|0 个评论
Matlab problem in Saving the Figure with GEOTIFF layer
lixujeremy 2013-11-15 09:23
This problem has confused me for several months. In the figure, the GEOTIFF file can be loaded as a layer, and then called ’china’ shapefile was read and overlay on the GEOTIFF, but the figure cannotbe saved perfectly, excluding the GEOTIFF layer, how I can? The code and results is following. %Read .shp s=shaperead('china'); %Read .tiff =geotiffread('EA.tif'); h=figure; clf; worldmap( , ); setm(gca,'mapprojection','mercator'); geoshow(A,R); geoshow( , ,'Color', ./255,'linewidth',1.5); Figure as Final result as jpg
个人分类: Matlab|3175 次阅读|0 个评论
GEO 2010shanghai 会议照片
serenashi 2010-6-8 12:36
抽空跑到会场里照了几张照片。 就是在这个巨蛋里面,外面看起来很小,其实内部空间很大! 会场内部 开场 开场 很遗憾没能进去好好听听,据说报告都非常精彩!
个人分类: 会议|4288 次阅读|0 个评论
[转载]GeoShanghai 2010
serenashi 2010-6-1 12:38
GeoShanghai 2010 will be held in Shanghai, China from 3rd to 5th of June, 2010. It is the second of its series, preceded by its first been successfully held in 2006 in the same city. The conference is intended to bring together researchers and practitioners around the world to share the advancements and discuss the future directions of geotechnical engineering A wide range of issues related to geotechnical engineering will be addressed at the conference. Technical papers will be compiled into a serial of ASCE Geotechnical Special Publications. Shanghai is located at the estuary of Yangtze River. The city has a history of more than 1000 years which hosts some beautiful Chinese Gardens and historic buildings. It is now turning into an eastern metropolitan where you can enjoy every convenient of modern life. Shanghai is the frontier of applying new Geo-techniques and innovations in China. It is the right place to see some ongoing exciting projects. We are sure you will benefit from the conference and enjoy the city. We look forward to seeing you in Shanghai in 2010. (Yong-sheng Li) Chairman of GeoShanghai 2010 http://www.geoshanghai2010.org/ 地点:上海九江路505 上海大酒店
个人分类: 会议|2457 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 15:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部