生物技术创新创业分享 http://blog.sciencenet.cn/u/SNPs 美国HudsonAlpha研究院的研究员。做分子鉴别诊断平台技术的开发和免疫组库基础科研。

博文

当心:别被“大数据”忽悠了! 精选

已有 13687 次阅读 2013-11-30 03:04 |个人分类:生物技术创新创业|系统分类:科研笔记|关键词:学者| 生物技术, 创新创业, 肿瘤诊断

现在学术界的一个时髦词汇就是“大数据”,好像大数据是万能的,真的是那样吗?

大数据的产生有这样几个途径:

(1)长期积累大量标本,准确纪录临床病症,并用现代化技术对标本进行描述。收集标本的目的是通过比较,在众多标本之间的异同中找到疾病诊断的机会;

(2)使用高通量技术(比如高通量测序),对少量标本进行纵深分析,获得综合数据。通过比较,在标本内部(和标本之间)找到疾病特异性的诊断指标;

(3)充分利用超级电脑的运算和储存能力,在高通量实验的基础上,产生和临床相关的大数据;

(4)没有长期积累的大标本库,不用高通量技术,不用超级电脑,就凭一张超能说的嘴。

标本,历来是医学科研各种炼金术的起点,无论是研发诊断还是治疗,都离不开第一手临床资料,都离不开标本。遗传性疾病靠收集家系标本,通常是几个家系就能判定治病突变,尤其是有了现代测序技术以后,全基因组测序可以很快找到治病突变;可是对那些类似高血压,肿瘤这种“多基因病”就比较难对付了。光有大标本还不够,还要有高通量技术,甚至有了高通量技术也不能解决问题(参考GWAS的误区)。质变(基因突变导致的遗传病)需要小标本,量变就需要大标本了。怎样才能完成由量变到质变的转化?这才是大学问。

单单有高通量技术也不代表有高质量的大数据。“垃圾近,垃圾出”就是对单有技术没有高质量标本的所谓“大数据”的一个经典描述。

如何巧妙地结合大标本,高通量技术,和超级电脑的运算能力,这是我们需要专研的,冷静思考的。

大数据很容易被用来忽悠人,因为懂电脑的不多,一说大数据,人们马上想到程序员,服务器,等IT行业的专有名词,这对学生物医学的来说是一个门槛。其实,那些口头上吹出来的大数据也很好识别,不妨问几个关键问题:

(1)标本哪里来?临床数据是否全?是否有知情同意书?标本采集者是否经过培训?

(2)标本积累了多久?冰箱和液氮罐在哪里冰箱耗电和液氮填充的纪录在哪里?

(3)高通量技术平台是哪个?什么时候开始做的?

(4)运算能力如何?计算机房在哪里?计算机房的耗电纪录在哪里

(5)程序员有几个,有什么样的经历?

大标本,大数据,听起来好像是只有有钱人才能玩的起的游戏。之所以有人拿大数据来忽悠,就是因为一听到大数据人们不免肃然起敬,于是马上就有了“档次”,就“入流”了。

有价值的大数据靠三个要素:大量的高质临床标本;先进的高通量检验技术;和数据处理硬件,软件及生物信息学人才。因为缺少诚信,加上大家都抢论文的第一作者,这三方面高档次的合作机会在国内就变得少上加少了。

相关博文:

GWAS的误区

五个时髦技术被判死刑

国内科学家之间合作何其难?

编织一个科研合作的网络



https://m.sciencenet.cn/blog-290052-745862.html

上一篇:蔑视金钱的最好方法是先把钱赚到手
下一篇:创新需要诚信文化

26 曹聪 曹君君 戴德昌 吕喆 武夷山 张雷 卢宏超 薛宇 梁洪泽 翟自洋 鲍得海 闵应骅 何学锋 徐晓 赵斌 郭宾 姜咏江 李宇斌 王春艳 徐明昆 牛丕业 邱青松 赵凤光 hkcpvli geilibu liyouxi

该博文允许注册用户评论 请点击登录 评论 (17 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-5 11:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部