尽管系统生物学并不绝对强调对大量观测数据的要求,然而如果没有海量数据,我们其实只能讨论一下哲学,发展一些对数据进行处理的技巧和方法,但不能窥知生命系统的全貌。毕竟系统生物学还是“生物学”,我们的目的仍在于理解生命现象背后深刻的自然规律和逻辑。
高通量数据(high throughput data)包括,
- 表型(phenotypes)- 在各个层面,包括物种/发育/生理/病理/细胞/亚细胞等层面的观察数据;
- 文献(literatures)- literature mining也是基于海量数据进行的,这方面代表作参见PubGene;
- 基因组序列及其annotations - 这就不用多说了,几十个物种的ref seq已经出来了,未来UCSC还要做1K genomes;
- 序列多态性(sequence polymorphism)- 目前高通量数据基本上是SNP数据,通常用于GWAS分析;
- 基因表达数据 - 包括microarrays, cage, EST, 以及NGS中获得的RNA数据,这个也不用多说;
- 蛋白-蛋白相互作用(PPI)- 几个数据库BIND,HPRD,BioGRID;
- 转录因子-DNA相互作用(trans) - 包括按照TFBS PWM方法在基因组上预测,以及通过ChIP方法测序得到的数据;
- 开放染色质(open chromatin)- 两种方法测量到的DNase hypersensitive site,可以说是最广义的调控区;
- 核小体占位(nucleosome occupancy)- 与open chromatin相反,这里测量的是被核小体保护的DNA序列;
- 甲基化(DNA methylation)- 对DNA序列上CpG位点中C的甲基化修饰,一般的功能是silence;
- 核小体蛋白的化学修饰(epigenetic modifications on histones)- 非常多样化也非常重要的基因表达调控方式,其中主要包括甲基化和乙酰基化,还包括磷酸化和核糖基化等非主流修饰。目前发表的数据主要集中在promoter,enhancer,以及exon marker上;
- e-QTL - 应当说这不是独立的数据来源,而是整合了小鼠遗传家系的基因组多态性数据以及基因表达数据的结果,但是这个数据系统地揭示了顺式(cis)调控可能的位点信息,比较重要;
- Comparative Toxicogenomics Database (CTD)- 主要收录了环境化学物质与基因功能之间的关系,迄今为止,已收5,069,054种 toxicogenomic relationships.
注意了,如果您认为自己在做系统生物学研究,但是目前还未使用上述任一种数据,那么就有些危险了,呵呵。
未来的高通量数据,不仅仅是完善上述数据库,更要发掘新的生物学观测数据,例如,
- 小分子代谢产物数据库;
- non-coding RNA数据库,尤其是RNA editing data;
- (微)生态环境数据库;
- (欢迎补充 ...)
还有,更科幻的是,
- 亚细胞结构图像数据库;
- 细胞内单分子图像数据库;
- 马达(动力)蛋白的行为数据库,等等;
这些数据实际上是接近观察的终极目的了,单分子的行为,以及细胞的纳米显微结构都可以在活细胞中进行观测。那么未来对数据的处理和分析与现在又会不同,而且在分析的哲学上也会产生质的飞跃。
https://m.sciencenet.cn/blog-576409-459261.html
上一篇:
系统生物学,概略的讨论 (4) 【中心式发展和一点闲话】下一篇:
系统生物学,概略的讨论 (7) 【费曼启发了我】