图林小子的非正经学术分享 http://blog.sciencenet.cn/u/tulinxiaozi 以一种非正式的方式,传播自己的学术思考与经验,让更多的科研新人受益,让学术世界变得有温度。

博文

大数据对科学研究的影响及其启示

已有 1857 次阅读 2022-10-21 19:19 |个人分类:学术交流|系统分类:科研笔记

IMG_20170819_071259.jpg

云计算、物联网、区块链、人工智能、5G通信等技术的快速发展,加快了以数字化、网络化、智能化为核心的第四次工业革命的到来。全球数据呈现爆发式增长,未来注定是竞争日益激烈的数字经济时代。数字经济已成为推动中国经济又好又快发展的新引擎,由数字经济催生的各种新业态已成为中国经济新的重要增长点。以大数据为代表的信息资源是国家的基本战略资源。它们与其他生产要素一起融入经济价值创造的过程,对社会生产力的发展产生广泛影响,成为重塑国家竞争优势的新机遇。

2015年,我国“十三五”规划首次提出“国家大数据战略”;2020年5月,数据作为新型生产要素,被正式写入《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,成为数字经济时代的基础性资源、战略性资源和重要生产力;2021年工信部发布《“十四五”大数据产业发展规划》,将大数据产业作为激活数据要素潜能的关键支撑以及加快经济社会发展质量变革、效率变革、动力变革的重要引擎。这篇短文在综合现有资料的基础上,汇总了大数据对科学研究影响及其启示。

一、大数据对科学研究的影响

图灵奖获得者、数据库专家吉姆·格雷(Jim Gray)博士提出,科学研究先后历经了实验、理论、计算和数据四种范式。

  (1)第一种范式:实验科学

  早期,科学家们采用实验来寻找科学问题的答案,例如:伽利略的比萨斜塔实验。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1900年之久的错误结论[1]

  (2)第二种范式:理论科学

  科学的进步使得人类开始采用各种数学、几何、物理等理论,构建问题模型和解决方案。例如:牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展与进步[2]

  (3)第三种范式:计算科学

  1946年,第一台计算机ENIAC诞生,人类社会进入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期,人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展[1]

  (4)第四种范式:数据科学

  物联网、云计算以及大数据技术的出现及其相互促进,使得事物的发展发生了“质变”,我们进入了大数据时代。一切将以数据为中心,从数据中发现问题、解决问题,最大程度地发挥数据的价值。大数据将成为科研工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,服务于生产和生活,推动科技创新和社会进步[2]

二、大数据对科学研究影响的启示

  维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果[3]。大数据时代,数据思维方式的转变,对于应用学科或应用型的研究来说,在研究设计、数据收集以及数据分析方面具有重要的影响。

  (1)数据收集方式为全样而非抽样。当前,海量数据的存储和处理,分布式文件系统和分布式数据库技术,提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce提供了强大的海量数据并行处理能力。许多科学研究完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得到分析结果,速度之快,超乎我们的想象。例如:谷歌公司的Dremel可以在2~3秒内完成PB级别数据的查询[3]。大数据时代,像网络舆情、网络用户行为方面的研究,在收集数据时,是采用全样还是抽样的方式?传统的数据分析方法是否适用于全样数据的分析?

  (2)重视数据处理算法的效率而非精确。以前的抽样分析方法,为了避免误差被放大,必须追求数据分析方法的精确性。传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。大数据时代,全样分析结果就不存在误差被放大的问题,因此,追求高精确性已经不是其首要目标;相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心[3]。做大数据分析,已经离不开计算机和软件。没有技术的支持,大数据分析无从开展。那么,人(科研工作者们)在大数据分析过程中担任怎样的角色?

  (3)更加关注相关而非因果。过去,数据分析的目的是解释事物背后的发展机理,和用于预测未来可能发生的事件,重视揭示数据之间的“因果关系”。大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”[3][4]。例如:在电商平台购物时,当我们添加了某件商品到购物车时,平台会根据商品之间的相关性推荐算法的结果,自动提示“X%购买了该商品的客户,同时购买了另外一件商品”。大数据技术的应用无处不在,那么大数据技术是不是万能的?是不是只要计算机足够“大”,无论输入多少数据,它都能输出结果,并且是较为准确的结果?

 

参考文献:

[1] 林子雨. 大数据对科学研究的影响[EB/OL].[2022-10-21]. https://dblab.xmu.edu.cn/blog/2618/.

[2] 林子雨.大数据导论——数据思维、数据能力和数据伦理[M].北京:高等教育出版社,2020:19-20.

[3] 大数据对科学研究的影响有哪些[EB/OL]. [2022-10-21].https://www.yisu.com/zixun/269822.html.

[4] 朱尔斯.J.伯曼.大数据原理与实践——复杂信息的准备、共享和分析[M].张桂刚等译.北京:机械工业出版社,2020.




https://m.sciencenet.cn/blog-3530069-1360394.html

上一篇:第一次英文论文投稿常见问题及其建议
下一篇:学校这波疫情结束,下周一开始恢复线下上课!

2 许培扬 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-1-28 20:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部