“外”如探测浩瀚的宇宙,“内”如揭示人体细胞的奥秘,海量的信息必将改变人类社会、改变人类自己。 人类已经逐步进入信息爆炸的时代,各种个人信息、网络行为、生活习惯,甚至各种所谓的隐私、银行账号密码等“机密”信息均无法避免遭遇各种泄露门、监控门事件。肿瘤这个邪恶的幽灵隐藏在体内,时刻准备攫取资源来扩张自己的军队。而我们却对之毫无察觉。 但随着以新一代测序技术为代表的高通量生物检测技术的发展,肿瘤的机密信息也无处遁形,遭遇着前所未有的“信息泄露”,肿瘤的DNA、RNA、蛋白质、代谢物等生物信息都暴露于人类的检测之下。这些海量信息被称为组学信息(omics),如:DNA序列信息是基因组(genomics)、染色质结构和各种基因组修饰是表观遗传组(epigenomics),另外还有转录组、蛋白质组、代谢组等等。从这些泄漏的信息,我们该如何来窥探肿瘤的“隐私”?如何推出更好的对付“肿瘤”的办法? 拿到海量的肿瘤组学数据我们能做什么?首要任务是建立肿瘤的信息档案。就像是地理测绘测绘,首先要用测到的数据把地图绘制出来。目前,几个国际癌症基因组计划,如ICGC(International Cancer Genome Consortium)、TCGA(The Cancer Genome Atlas),都致力于推动肿瘤分子图谱的构建。利用TCGA的数据,可以识别在肿瘤细胞中发生的体突变,并从中识别出影响蛋白质结构与功能的突变位点(Niu et al., Nat Genet 2015),另一项类似的研究从超过7000余对肿瘤/癌旁配对样本中识别出超过47000个非同义突变位点,极大的提高了人们对肿瘤突变谱的认识(Shen et al., Am J Human Genet 2016)。基于突变谱,可以更好的估计靶向药物的潜在应用比例,经计算估计约40%的病人可能会受益于靶向药物(Rubio-Perez et al., Cancer Cell 2015)。 但由于肿瘤的高度异质性以及不同中心采样和检测手段的差异,单个项目所纳入的样本量仍然远远不够,以肝癌为例,在TCGA中有约400例样本,已经是目前公开数据集里样本数最多的了。为了更好的绘制“肿瘤的地图”,必须建立跨更多数据源的大规模图谱。比如本课题组构建的肝细胞肝癌(Hepatocellular Carcinoma,HCC)组学图谱 HCCDB ,已经收录了约3500例临床样本的基因/miRNA表达数据、约800例DNA甲基化数据、约600例CNV数据(来源于17组研究),目前可提供表达谱的网页浏览服务。多来源/多中心、大规模的组学数据是建立肿瘤信息档案的基础,基于这些收录的数据,我们已经开展了HCC的DNA甲基化图谱分析(Zheng et al. Brief Bioinform 2016 ),正在进行基于表达谱的HCC分型研究。同时,HCC相关研究人员可以方便的查询分析结果,指导相关的实验设计,提出更加合理的假设。比如某研究人员正在关注HCC肿瘤干细胞的调控机制,他可以用EPCAM、AFP、SPP1等候选基因来查询相关的通路或基因。信息爆炸的时代或者说大数据时代,绘制各种“地图”是实现数据价值的第一步,从多个维度、多个层次构建“肿瘤地图”是以信息技术攻克癌症的基础和关键。类似的,大肠癌也建立了超过4000例样本(来源于18组研究)的大规模数据集,并基于该数据集分析出大肠癌的四个分子亚型,并得到了每个分子亚型所特有的分子和表型特征(Guinney et al. Nat Med 2015)。 有了基础地图之后,我们当然需要将其绘制得更加精细,并利用“先人的知识”对其进行仔细的标注,比如在军事地图上需要标注出关键的制高点、隘口等。这个时候人工智能技术就非常重要了,针对癌症组学数据高维、异质等特性,需要更好机器学习方法对数据进行挖掘和建模,比如聚类(分子分型,如多组学整合聚类方法 LRAcluster )(Wu et al. BMC Genomics 2015)、预测(分子标志物),核心调控网络识别(分子机理)(Gu et al. Mol BioSyst 2014))及其可能的调控策略(药物干预)等。由于生命系统高度复杂,组学数据并不能很好的完成“地图标注”的任务,必须要跟专家知识、文献信息有机的结合起来。这对传统基于采样数据的机器学习方法无疑是新的挑战。可以预见,要更好的解读肿瘤的信息,必须建立可融合采样数据和知识数据的新的人工智能方法。深度学习(deep learing)(LeCun et al. Nature 2015)与层级贝叶斯学习(hierarchical Bayesian learning)(Ghahramani. Nature 2015; Lake et al. Science 2015)的结合是否是可行的路径?这些都还有待进一步的研究。 随着生物医学检测技术与人工智能的发展,肿瘤的“机密信息”将不断的被披露,人们将拥有更多肿瘤诊疗的新手段。 参考文献: Ghahramani. Probabilistic machine learning and artificial intelligence. Nature 2015, 421:452-459. Gu et al. Gene module based regulator inference identifying miR-139 as a tumor suppressor in colorectal cancer. Molecular BioSystems 2014, 10(12):3249-3254. Guinney et al. The consensus molecular subtypes of colorectal cancer. Nat Med 2015, 21(11):1350-1362. Lake et al. Human-level concept learning through probabilistic program induction. Science 2015, 350(6266):1332-1339. LeCun et al. Deep Learning. Nature 2015, 521:436-444. Niu et al. Protein-structure-guided discovery of functional mutations across 19 cancer types. Nat Genet 2016, 48(8):827-837. Rubio-Perez, et al. In Silico Prescription of Anticancer Drugs to Cohorts of 28 Tumor Types Reveals Targeting Opportunities. Cancer Cell 2015, 27:382-396. Shen et al. Proteome-Scale Investigation of Protein Allosteric Regulation Perturbed by Somatic Mutations in 7,000 Cancer Genomes. Am J Hum Genet 2016, EPub. Wu et al. Fast dimension reduction and integrative clustering of large-scale multi-omics data using low-rank approximation: application to cancer molecular classification. BMC Genomics 2015, 16:1022. Zheng et al. Genome-wide DNA methylation analysis identifies candidate epigenetic markers and drivers of hepatocellular carcinoma. Brief Bioinform 2016, Epub. 2016年12月23日
基因组坏了,修还是不修?这是个问题。 顺铂( cisplatin )是常用化疗药,会进入细胞核与DNA结合,导致基因组损伤,进而引起细胞死亡。DNA修复通路是维持基因组稳定性的重要机制,但这套机制对顺铂引起的基因组损伤也可以进行修复,减少因基因组破坏导致的癌细胞死亡;同时顺铂引起的基因组变化被修复成了新的“突变”,增加了癌细胞进化出抗药性的可能性。我们的分析发现,在膀胱癌(BLCA)中, DDB1 (损伤特异的DNA结合蛋白)的高表达预示着顺铂药物无效,从整体生存期来看DDB1的高表达也也预示着较差的预后。可以说DNA修复通路是癌症发生发展的双刃剑,DNA修复基因与顺铂药物响应的复杂关系有待深入研究。 ============================== 判断化疗药物临床响应的好坏是癌症治疗的重要问题,从药物成本和总体疗效来看,化疗药仍是一线治疗方案的首选。但并不是所有病人对化疗的响应一致。除了传统的临床检查指标外,从分子层次建立化疗药物临床响应的预测模型、阐明抗药机制对癌症的治疗具有重要意义。我们系统整理了TCGA的药物临床响应和多模态组学数据,建立了一套严格的机器学习分析框架对基于组学数据的预测模型的性能进行了系统的评价,结果表明: 1)截止2015年年底数据,同一种药物的药物响应与组学数据都比较完整的记录仍不多,最多的几种化疗药cisplatin、5-fu等也仅有100多个样本,在单个癌症类型中样本数仅有数十个;另外,“无响应”与“响应”组的样本数很不平衡,有数倍的差异。数据集的这些特点给构建预测模型带来了很大的难度; 2)针对数据的特点,我们设计了基于系数回归(elastic net)和重采样(bootstrapping)的计算评价框架,尽可能避免过学习,相对客观的评价预测的性能; 3)从预测结果来看,总体预测性能并不理想,仅有膀胱癌-顺铂-基因表达、乳腺癌-紫杉醇-miRNA表达等几个数据集可以达到较好的预测性能; 4)利用elastic net进行特征选择,可以选出若干与药物临床响应相关的重要基因,比如DDB1(DNA repair pathway)高表达预示着响应差,从生存分析的结果来看,DDB1高表达与预后差相关,顺铂对基因组具有破坏性,DDB1基础表达水平高可能通过削弱顺柏的基因组破坏作用进而产生药物抗性;另外还发现DLL4、INST5、HNRNPA3-HNRNPA3P1等很有意思的特征基因; 5)借鉴pan-cancer分析的思路,我们也对单种药物也进行了跨癌症类型的分析,对预测性能会有影响,但未能得出有规律的变化。 Evaluating the molecule based prediction of clincial drug responses in cancer Zijian Ding, Songpeng Zu, Jin Gu Dataset: http://bioinfo.au.tsinghua.edu.cn/member/jgu/drug_response Molecule-based prediction of drug response is one major task of precision oncology. Recently, large-scale cancer genomic studies, such as The Cancer Genome Atlas (TCGA), provide the opportunity to evaluate the predictive utility of molecular data for clinical drug responses in multiple cancer types. Here, we firstly curated the drug treatment information from TCGA. Four chemotherapeutic drugs had more than 180 clinical response records. Then, we developed a computational framework to evaluate the molecule based predictions of clinical responses of the four drugs and identify the corresponding molecular signatures. Results show that mRNA or miRNA expressions can predict drug responses significantly better than random classifiers in specific cancer types. A few signature genes are involved in drug response related pathways, such as DDB1 in DNA repair pathway and DLL4 in Notch signaling pathway. Finally, we applied the framework to predict responses across multiple cancer types and found that the prediction performances get improved for cisplatin based on miRNA expressions. Integrative analysis of clinical drug response data and molecular data offers opportunities for discovering predictive markers in cancer. This study provides a starting point to objectively evaluate the molecule-based predictions of clinical drug responses. ========================= 附:投稿过程 这次可以说是最近第一次写非方法类的研究论文,主要研究用组学数据预测化疗药物临床响应。 从投稿过程来看,没有新的组学数据或者功能性验证实验,计算发现很难得到基础医学类杂志的杂志,几个好一点的杂志都没有送审。 第一个期刊是生物综合类杂志核酸研究NAR,编辑部未送审,主要理由是缺乏general interests,2016/01/28 While your study is very interesting, the editors believe that this paper is most appropriate for a journal more specifically focused on cancer therapeutics and drug validation. Therefore, we are returning this decision to you so that you may proceed with submission to a different journal. This decision does not reflect our assessment of the quality of this work but rather the belief that it is more appropriate for a different publication venue. 第二个期刊是癌症类专业期刊Cancer Research,1月28日投稿,因为格式问题来回了几次,2月4日进入Under Review(应该是在编辑手里),2月16日中午Decision Pending,稍后收到编辑部未送审通知。 第三个期刊是Nature Communications,2月17日投稿,2月29日收到编辑部未送审通知。 第四个期刊投Bioinformatics,格式改成了Discovery Notes,3月1日投出,3月6日通过编辑部进入Awaiting Reviewer Assignment,3月14日Under Review,3月28日Awaiting Decision;4月3日Major Decision,4月28日修回,5月4日编辑部审查后进入Under Review,5月23日Awaiting Decision,5月27日Accepted
近期肝癌大规模组学研究进展 测序技术、芯片技术已成为癌症研究的利器,各大药厂、医学院纷纷投入大笔经费期望能从大规模组学数据中挖到金子,最“好挖”的矿无非是在多个病人中能反复观测到的基因组相关的变异(如SNV,indels、染色体拷贝数变化)、表观基因组变异(DNA甲基化、组蛋白修饰和染色体结构等)、以及基因产物的差异变化(如mRNA、lncRNA、miRNA、蛋白质、代谢物等),研究人员希望通过高通量技术系统的发现癌组织与正常组织的差异。近期围绕肝癌(主要是肝细胞癌)开展了一系列组学研究,发现了很多与肝癌相关的变异: Sawey, E.T., et al., Identification of a therapeutic strategy targeting amplified FGF19 in liver cancer by Oncogenomic screening. Cancer Cell, 2011. 19(3): p. 347-58. 早期的全基因组拷贝数研究,发现了chr11q13的一个焦点扩增区(focal amplification)CCND1、FGF19处于该区域。 Lamb, J.R., et al., Predictive genes in adjacent normal tissue are preferentially altered by sCNV during tumorigenesis in liver cancer and may rate limiting. PLoS One, 2011. 6(7): p. e20090. 这个研究很有意思,发现癌旁的基因sCNV在癌症发生发展过程中起到很关键的作用,这与2008年发表在新英格兰医学上一篇用癌旁基因表达谱预测肝癌复发的研究有类似的发现。 在2012年Nature Genetics发表了多篇基于全基因测序或外显子组测序的研究 Huang, J., et al., Exome sequencing of hepatitis B virus-associated hepatocellular carcinoma. Nat Genet, 2012. 44(10): p. 1117-21. Fujimoto, A., et al., Whole-genome sequencing of liver cancers identifies etiological influences on mutation patterns and recurrent mutations in chromatin regulators. Nat Genet, 2012. 44(7): p. 760-4. Sung, W.K., et al., Genome-wide survey of recurrent HBV integration in hepatocellular carcinoma. Nat Genet, 2012. 44(7): p. 765-9. Kan, Z., et al., Whole-genome sequencing identifies recurrent mutations in hepatocellular carcinoma. Genome Res, 2013. 23(9): p. 1422-33. (这篇用的是 的全因组测序数据) 今年在Genome Biology上新发表了一篇HBV HCC的全基因测序的研究 Jhunjhunwala, S., et al., Diverse modes of genomic alterations in hepatocellular carcinoma. Genome Biol, 2014. 15(8): p. 436. 在这些研究中大多只分析了点突变(SNV)或者小的插入缺失(indels),从测序数据估计CNV仍然存在一定的问题,值得进一步深入的研究。 用基因芯片研究CNV在数据分析上有一定的优势,质量相对稳定,费用也比较低,在Hepatology杂志上发表了两篇用芯片分析CNV的研究: Ahn, S.M., et al., Genomic portrait of resectable hepatocellular carcinomas: Implications of RB1 and FGF19 aberrations for patient stratification. Hepatology, 2014.(同时做了Exome-seq) Wang, K., et al., Genomic landscape of copy number aberrations enables the identification of oncogenic drivers in hepatocellular carcinoma. Hepatology, 2013. 58(2): p. 706-17. 两篇文章得到的大片段的CNV比较一致,比如1q、8q的扩增,4q的缺失等 Yi Zhao Haitao Zhao小组针对两个典型的肝癌病人的样本进行了多组学检测,发现有多个原发灶的肝癌相互之间有较大区别,而只有一个原发灶的转移部位与原发部位无明显区别: Miao, R., et al., Identification of prognostic biomarkers in hepatitis B virus-related hepatocellular carcinoma and stratification by integrative multi-omics analysis. J Hepatol, 2014. 61(4): p. 840-9. 综述 中对2014年以前的相关研究进展进行了系统整理和评述,但主要是从结果和生物学方面进行了总结,未从“数据”的角度来评述相关的研究进展。肝癌组学研究已经积累了一定量的数据,其中的价值还有待于进一步挖掘。 Shibata, T. and H. Aburatani, Exploration of liver cancer genomes. Nat Rev Gastroenterol Hepatol, 2014. 11(6): p. 340-9.
组学的未来 贾伟 2011 年 10 月 1 日出版的 The Scientist 刊出了 Stephen Friend ( 曾经是 Merck 的 Sr. VP 现在是 Sage 总裁)的一篇短文, Opinion: Thinking Outside the Genome 。文章的第一段对组学的未来作了极具煽情的展望。 Today, we’ve gotten to the point where almost no biological phenomenon can escape omics-ization, and within the next 25 years, omics will be the biggest, if not the only, game in town. Why? Because we are about to undergo what experts call a phase shift, where a technology drives a fundamental change not just in what is known, but, more importantly, in how we think of ourselves. Put another way: omics is destined to change our patterns of living in ways that only technological revolutionscan deliver. (今天,组学在我们的生物学中已经到了无处不在的地步,而在未来的 25 年内,它们将在生物学中占据老大的地位-如果还不是垄断地位的话。为什么这么说呢?因为我们正在经历着一种专家们称之为相位移动式的技术进步,这种新的科学技术将不仅动摇我们知识大厦的根基,而且会改变我们对自身(生命)的看法。换句话说,如同一场技术革命的东风,组学注定将吹遍并改变我们生存社会的每一个角落。) 作为组学研究队伍中的一个成员,我不确定是否完全赞同 Friend 对组学技术的这种 more than friendly 、准确地说是抬到了至高无上的极至地位的评价。但这几年来我的确能感受到西方科学从点到面到系统的思维认识上的相位移动,而组学技术无疑是实现这种相位移动的最为有效的科学工具。 这里说的组学( Omics )包含了很多个具体的组学技术,英文词根 -ome 表示一类个体的系统集合。基因组学( Genomics )主要研究生物系统的基因结构组成,即 DNA 的序列和表达;转录组学( Transcriptomics )是在整体水平上研究细胞中基因转录的情况及转录调控规律的一门学科;蛋白组学 (Proteomics) 主要研究由生物系统表达的蛋白质及其由外部刺激引起的差异;代谢组学 (Metabolomics) 则研究生物体(包括细胞、组织或个体)在不同条件下所产生的代谢产物的变化。 我们实验室从事代谢组学的研究。什么是代谢组学呢?我们知道生物体由基因调控下的生化反应以及与环境相互作用所形成的所有的生命活动几乎都发生在代谢层面,都会在代谢物的范围内留下变化印迹。我们称细胞内的代谢物变化为代谢指纹 (Metabolic Fingerprints) ,细胞外的代谢物变化为代谢足迹 (Metabolic Footprints) ,生物体的代谢组实质上最接近于其生理表型,在这个角度下,也可以说我们的生物世界其实是由各种代谢组组成的,也正是这些不同的代谢组让我们生物界呈现出五彩缤纷、气象万千的表型。我们地球上的各种植物含有几十万种(大约 25 - 50 万种植物化学分子)代谢物,微生物界包含几万种代谢物,而我们哺乳动物体内拥有 5 - 7 千种小分子代谢物(分子量小于 1500 )。这三类代谢组互相渗透,循环往复,植物和微生物的代谢物通过食物、营养补充、药物等形式进入我们人体的代谢网络,也使我们每一个人的代谢表型呈现出各自的特征。 由于一次分析能够观察到成百上千的生化指标的变化,组学技术在疾病诊断和生物标志物的发现方面已经登堂入室,开始强势进入主流的研究领域。以药物基因组为例,一个病人的独特的 DNA 序列对单个药物反应的相互关系可以用来判断其治疗效果和副作用,从而找到与该病人个体基因组或单核苷酸多态性( SNP )相契合的最佳疗法。目前药物基因组学已经进入临床,开始扮演起支撑临床个体化医学发展的转化医学技术体系的核心角色,我相信药物基因组技术最终将成为医生为病人选择最佳疗法的常规手段之一。国际上正在广泛开展的肿瘤代谢研究就是一个新兴的传统分子生物学结合代谢组学的研究方向,该方向积聚了大量的来自于医药企业和高校研究机构的研究人员,他们通过代谢组学的手段探测肿瘤分子内的特征性代谢异常,然后采用其他手段如蛋白质分析或分子药理学等方法对关键代谢酶和调控基因进行表征并施加影响,以寻找新型的肿瘤治疗药物靶点。 Friend 在这篇短文中展望:在不久的将来……研究人员、患者和医生之间的关系就好比人人皆可编辑的维基百科中词条编辑者、审核者和登录维基获取知识的大众读者一样。人们会发现运用组学信息,他们也可以成为疾病模型的搭建者,像飞行中的副驾驶员一样跟医生一起决定什么情况下用什么药物,或制订和实施新的治疗方案。 组学的发展现状有君临天下的态势,其应用前景是辉煌灿烂的。但需要认识到的是,它的实质也就是一种科研工具,并不能包打天下!作为一个从事或即将从事组学研究的实验室应该头脑清醒,把握好趋势,寻找好自己的位置和发展契机。以我不成熟的观点来看,未来几年组学技术将以前所未有的速度商品化,我们日常科研工作中需要的绝大多数组学工具将成为一种服务可以按较低廉的价格从专业公司购买到,因此对于尚未搭建组学平台的许多科研实体,需要详细的调研和冷静地思考是否有必要化巨资(一哄而上)进行这样的重复性(甚至是低水平)建设。另外,组学技术将进一步自动化和规模化。从代谢组学的领域来看,我个人预计未来 3 - 5 年将有一系列简便实用的新技术问世,它们包括( 1 )高通量、全定量代谢组学技术 (highthroughput quantitative metabolomics) ,针对大批量生物样本尤其是临床样本进行全谱分析;( 2 )采用同位素标记物质的代谢通量分析技术 (FluxMetabolomics) ,针对性地研究某一关键代谢通路中的代谢物流量的动态变化和代谢节点(代谢酶)的功能;( 3 )代谢组试剂盒 (Metabolomicskits) ,市场将推出针对某一类代谢物进行定量的代谢组试剂盒,如胆碱类代谢物、脂肪酸类代谢物等。因此,从事组学技术研究的实验室需要寻找该技术领域内的不足之处,通过错位竞争建立自己的技术优势和平台特点,避免旷日持久的全面铺开建设或依样画葫芦式的跟踪性研究。 不同组学技术之间的交叉使用和数据关联、组学技术和传统的分子生物学手段有机结合都将是未来转化医学研究的重要手段。前两周我和上海交大 Bio-X 研究中心的万春玲博士对一篇最近发表的精神分裂研究论文写了一个同行(网上)评论,这类评论比较简单随意,类似于写博客,我把其中一段贴到这里,反映一下我们对组学和多指标手段进行生物标志物发现 (Biomarker Discovery) 的粗浅看法: In the old days, scientists used to measure a single molecule or a small set of targeted molecules and extrapolate from these data to predict what was changing in biology in neurological conditions. We often looked at what we knew best to find only what we expected to find; akin to looking under the streetlamp for lost keys. Modern technology makes it possible to use multiple platforms and measure a large panel of molecules in a single biological sample. An unbiased profiling strategy to measure protein or metabolite molecules involved in glucose/lipid metabolism will provide profuse information in uncovering the potential biomarkers of this disease. Recently, we conducted a global metabolite profiling study to identify metabolite markers of schizophrenia ( Yang et al, 2011 ), which revealed characteristic changes of multiple fatty acids and ketone bodies in both sera and urine of schizophrenia patients, suggesting an up-regulated fatty acid catabolism. Fatty acid-binding protein was also observed to associate with T0PANSS score in schizophrenia subjects in Schwarz's study. Therefore, a broad spectrum analysis on key metabolic pathways deserves more attention in discovering and developing clinical molecular tools for schizophrenia. With multiplat form assays employed in the future clinical studies, we will be able to reduce the fuzziness associated with human studies and identify new biomarkers and mechanistic pathways because we are looking beyond the light shed by the streetlamp we were trained under. 说到 streetlamp (街灯),不知怎么就想到了八十年代(我们学生时代)的一首流行歌,齐秦的《狂流》。 北风在吹着清冷的街道 , 街灯在拉开长长的影子 , 走过的路,想过的事 , 仿佛愈来愈远愈来愈长愈来愈多愈难以抛开…… 没有人能挽回时间的狂流 , 没有人能誓言相许永不分离 , 是我的错是你错过,喔 ...... 我喜欢这句没有人能挽回时间的狂流,时间能改变一切,时间也的确改变了一切,也包括我们的科学世界。就像每个时代都有流行曲,我们科学界昨天时兴的是基因,今天是组学,明天又会是什么呢?我想这些恐怕都不重要,都会改变的,新技术你方唱罢我登场,还会有比组学更新的技术问世的。在时间的狂流里,改变的是技术工具,不变的,是我们心里的 Science 。
最新一期Nature Chemical Biology发表了系列Commentary文章,其中The challenges of integrating multi-omic data sets 一文明确指出:多组学数据的集成、挖掘所需投入的资源可能高于数据的采集,这对从事计算生物学建模的学者无疑是极大地鼓励: The capability to generate multi-omic data sets raises the issue of resource allocation for data generation versus data curation and integration. The initial experience of researchers shows that the effort required for the latter can be much greater than that for the former. 当组学数据的类型增加,例如mRNAs数据与microRNAs的集成分析时,上述趋势更加明显。 上述资源的理解,似可包括人力、物力、经费。 作者还指出: (1) 之所以上述情况现在还没有发生,部分因为人们发现难于找到合适的人从事多种组学数据的处理和集成,因为 这项工作需要对数据产生的过程有深入的技术知识; (2) 同时,实验设计时的预谋预筹很重要,组学数据往往由于技术背景的人掌管,而试图测试一切(参数)。此时,深厚的生命科学背景显得尤为重要。总之,生物医学、信息科学的多学科背景是解决多组学数据集成的重要素质,因为任何一个数据集成方案的背后,都实际上代表了你对这个问题的理解,即modeling。 原文链接: http://www.nature.com/nchembio/journal/v6/n11/full/nchembio.462.html