willtongji的个人博客分享 http://blog.sciencenet.cn/u/willtongji

博文

科学、计算科学与数据科学

已有 13843 次阅读 2016-11-9 10:05 |系统分类:教学心得|关键词:学者

科学是如实反映客观事物固有规律的系统知识,计算科学是,数据科学也是。

1、科学的概念

什么是科学?这是一个古老而又年轻的课题。在日常生活中,人们常把“科学”或“科学的”理解为“真的”、“客观的”和“进步的”等,简单且模糊的意会,但又似乎明了的概念。科学一词便成为最受人们敬重的知识名称。

从词源上说,英文science来源于拉丁文scientia,意为知识和学问。”世纪中叶,西方科学传人中国,science被译为“格致”,是格物致知的简称,用来指研究事物而获得知识。日本明治时代学界将science译成“科学”,1893年康有为引进并使用“科学”一词,严复在翻译《天演论》时,将science译为“科学”,用于替代“格致”,此后一直沿用至今。

达尔文给科学的定义是:科学就是整理事实,从中发现规律并做出结论。达尔文的定义指出了科学的内涵,即事实与规律。科学要发现人所未知的事实,并以此为依据,实事求是,而不是脱离现实的纯思维空想。至于规律,则是指客观事物之间内在的、本质的和必然的联系。

爱因斯坦则认为:设法对人们杂乱无章的感觉经验加以整理,使之符合逻辑一致的思想系统,就称科学。科学作为一种存在的事物和完整的事物,是人类认知的事物中最客观的。但科学在形成过程中,作为追求的目的,却如同人类的其他认知一样,是主观的,也是受心理制约的,以至对“科学的目的和意义是什么?”这一问题的答案,因时代或地域而异,因人而异。

美国《韦伯斯特新世界词典》对科学的记载是:科学是从确定研究对象的性质和规律这一目的出发,通过观察、调查和实验得到的系统知识。这一定义首先规定了科学的对象,确定研究对象的性质与规律。这一确定研究对象是不依赖于人们认识主体而存在的客观世界,它有着自己的规则和发展规律。

中国《辞海》(1999年版)对科学的记载是:科学是运用范畴、定理和定律等思维形式反映现实世界中各种现象的本质和运动规律的知识体系。

综上所述,科学(science)是反映现实世界中各种现象及其客观规律的知识体系。科学作为人类知识的最高形式,它是人类文化中一个特殊的组成部分,已成为人类社会普遍的文化理念。

科学的发展日新月异,早已形成一个庞大的家族。因此,科学的种类繁杂,从不同角度对科学有着不同的分类方法。例如,按照研究对象的不同,科学可分为自然科学社会科学思维科学,以及总结和贯穿这三个领域的哲学和数学;按照与实践联系的不同方式,科学可分为理论科学、技术科学和应用科学等;按照人类对自然规律利用的直接程度,科学可分为自然科学和实验科学两类;按照人类目标的不同,科学又分为广义的科学和狭义的科学两大类。

广义的科学概念是自然科学人文科学社会科学等所有学科的总称,狭义的科学概念则专指自然科学,有时甚至直指基础理论科学。

  • 自然科学(Natural Science)是以自然界为主要研究对象,运用实证、理性和臻美等方法,揭示自然的奥秘,获取自然的真知。

  • 人文科学(Humanities Science)是以人类作为主要研究对象,运用实地考察、诠释和启示等方法,认识人、人性和人生的意义,提升人的精神素质和思想境界。

  • 社会科学(Social Science)是以社会领域为主要研究对象,运用调查、统计和归纳等方法,把握社会规律,解决社会问题,促进社会进步。

传统的科学手段有两种,即理论研究实验研究,计算则是在运用这两种手段时常用的一种辅助手段。但是,由于计算科学(包括计算理论、算法、硬件和软件)的快速发展,计算业已上升为科学的另一种手段,它能够直接并有效地为科学服务,这已为大量的事实所证实。例如,为数学科学服务的“关于体育赛制的数学问题”,为地球科学服务的“计算机模型:超大陆是如何分裂的”以及为考古科学服务的“计算机解开斯芬克斯之谜”等。

美国能源部发布的报告认为,高端计算目前已经与理论研究、实验手段一起,成为获得科学发现的三大支柱。因此,理论科学、实验科学和计算科学是推动人类文明进步和科技发展的重要途径。这种认识不仅被科学文献广泛引用,而且还通过了美国国会的听证,获得美国联邦政府和私人企业报告的认同。不仅如此,现在我们还知道,随着大数据技术的日益成熟,数据密集型科学成为了科学发现的第四大支柱。

详细可以参见《大数据时代的新科学范式:数据密集型科学》一文。

尽管人们对计算科学和数据科学的发展趋势还有不同的看法,但是计算和大数据作为科学发现的新重要手段已被广泛认同,相信会有越来越多的科研人员积极涉足计算科学和数据科学的领域。不仅是物理学家、化学家和生物学家,而且整个科学、工程和技术领域内的专家都是如此。根据美国一位心理学家的研究报告显示,计算很可能是人类的一种本能,而大数据则提供了计算的原材料。

类似马克思说过:“一门学科,只有运用了数学才算是成熟了的学科”,我们认为:

一门学科一旦运用了计算科学和大数据,它就成为了先进的学科。

没有计么比应用新工具更有助于知识的发现。在不同的时期,人们的业绩不同,与其说是他们天赋智能所致,倒不如说是他们所拥有的工具和软资源不同所致。

2、计算科学与计算学科

从计算机的角度来说,计算科学(Computing Science)是应用高性能计算能力预测和了解客观世界物质运动或复杂现象演化规律的科学,它包括数值模拟、工程仿真、高效计算机系统和应用软件等。目前,计算科学已经成为科学技术发展和重大工程设计中具有战略意义的研究手段,它与传统的理论研究和实验研究一起,成为促进重大科学发现和科技发展的战略支撑技术,是提高国家自主创新能力和核心竞争力的关键技术因素之一。

西方发达国家一直将计算科学视为关系国家命脉的国家战略给予高度重视。美国通过实施1993年的高性能计算与通信(High Performance Computing and Communication,HPCC)计划、1996年的加速战略计算创新(AcceleratedStrategic Computing Initiative,ASCI)计划、2002年的高产能计算系统(High Productivity Computing Systems,HPCS)计划,在许多领域内获得了一系列重大科技成就,促进了高科技与国民经济的持续发展和国防高科技武器的出现,并获得基础科学研究的强大创新能力。同时,直接推动了高效计算机快速发展,为当今高科技的世界领先地位奠定了重要基础。

2005年6月,在由美国总统信息技术咨询委员会(The President's Information Technology Advisory Committee,PITAC)提交的“计算科学:确保美国竞争力”(Computational Science: Ensuring America's Competitiveness)报告中,再次将计算科学提升到国家核心科技竞争力的高度。报告认为,21世纪科学上最重要的、经济上最有前途的前沿研究都有可能利用先进的计算技术和计算科学而得以解决。报告强调,美国目前还没有认识到计算科学在社会科学、生物医学、工程研究、国家安全以及工业改革中的中心位置,这种认识不足将危及美国的科学领先地位、经济竞争力以及国家安全。报告建议,应将计算科学长期置于国家科学与技术领域中心的领导地位。

学科是指高等学校中讲授或研究知识的分科,它是高校教学和科研的细胞组织。从计算的角度来说,利用计算科学对其他学科中的问题进行计算机模拟或者其他形式的计算而形成的诸如计算物理、计算化学、计算生物等学科统称为计算学科(Computational Discipline)

从计算机的角度来说,计算学科(Computing Discipline)是对描述和变换信息的算法过程进行系统的研究,它包括算法过程的理论、分析、设计、效率分析、实现和应用等。计算学科的基本问题是:什么能被(有效地)自动进行。计算学科来源于对数理逻辑、计算模型、算法理论和自动计算机器的研究,形成于20世纪30年代后期。

计算学科是在数学和电子科学基础上发展起来的一门新兴学科,它既是一门理论性很强的学科,又是一门实践性很强的学科。几十年来计算学科自身发展的实践表明,一方面,围绕着一些重大的背景问题,在各个分支学科和研究方向上均取得了一系列重要的理论和技术成果,推动了计算科学向深度和广度发展;另一方面,由于发展形成了一大批成熟的技术并成功地应用于各行各业,更多的人将计算科学看成是一种高新技术。

1988年,美国计算机协会(Associationfor Computing Machinery,ACM)和国际电气电子工程市学会计算机分会(Computer Society of Institute for Electrical and ElectronicEngineers,IEEE-CS)联合完成了一份重要报告,即“计算作为一门学科”(Computing as a Discipline)。该报告把计算机科学和计算机工程统一称为计算学科,认为两者没有基础性的差别。并且第一次给出了计算学科的定义,提出了计算学科的详细内容、研究方法和一系列教学计划等。


1990年,ACM和IEEE-CS联合攻关组在“计算作为一门学科”报告的基础上,提交了“计算教程1991”(Computing Curricula 1991,CC1991)报告。该报告的主要成果是提取了计算科学中反复出现的12个核心概念,并提出“社会的、道德的和职业的问题”主领域,使计算学科方法论的研究更加完备。

1998年,ACM和IEEE-CS建立了计算教程2001(ComputingCurricula 2001,CC2001)联合工作组,并于2001年12月提交了最终报告。该报告分析了自CC1991报告以来近10年的时间里,计算领域中来自技术和文化方面的巨大变化,这种变化对教学设计和教学方法有着深刻的影响。同时将CC1991报告划分的11个主领域扩展为14个主领域,提出了计算机科学知识体(Computer Science Body of Knowledge)的新概念,为计算学科核心课程的详细设计奠定了坚实的基础。

此后,ACM和IEEE-CS联合工作组做了大量的工作,将计算学科分为计算机科学、软件工程、计算机工程、信息技术和信息系统等五个分支学科或专业,先后提交了IS2002、SE2004、CE2004、 CC2005、IT2008、CS2008、IS2010和CS2013等报告。

计算机科学(ComputerScience,CS):计算机科学研究的范围很广,从计算理论、算法基础到机器人开发、计算机视觉、智能系统以及生物信息学等,其主要工作包括寻找求解问题的有效方法、构建应用计算机的新方法以及设计与实现软件。计算机科学是计算各个分支学科的基础,计算机科学专业培养的学生,更关注计算理论和算法基础,并能从事软件开发及其相关的理论研究。

软件工程(SoftwareEngineering,SE):软件工程是一门利用系统的、规范的、可度量的方法来开发、运行和维护软件的学科,其主要目标是开#系统模型以及在有限预算内生产高质量的软件。软件工程专业培养的学生,更关注以工程规范进行的大规模软件系统开发与维护的原则,尽可能避免软件系统潜在的风险。

计算机工程(ComputerEngineering,CE):计算机工程是对现代计算系统和由计算机控制的有关设备的软件与硬件的设计、构造、实施和维护进行研究的学科。其主要领域包括计算机系统、电路和信号、人机交互、算法与复杂性以及网络等。计算机工程专业培养的学生,更关注设计并实施集软件和硬件设备为一体的系统,如嵌入式系统等。

信息技术(InformationTechnology,IT):信息技术是一门针对社会和各企事业单位的信息化需求,提供与实施技术解决方案的学科。其主要工作涉及对计算机软件和硬件、计算机网络等相关技术与产品的选择、评价、集成、应用和管理。信息技术专业培养的学生,更关注基于计算机的新产品及其正常运行和维护,并能使用相关的信息技术来计划、实施和配置计算机系统。

信息系统(InformationSystems,IS):信息系统是指如何将信息技术的方法与企业生产和商业流通结合起来,以满足这些行业需求的学科。其主要领域包括电子数据处理系统、管理信息系统、决策支持系统、办公自动化系统、电子商务与电子政务、商务智能和企业资源规划等。信息系统培养的学生,更关注信息资源的获取、部署、管理和使用,能够分析信息需求和相关商业过程,能详细描述并设计出与目标相一致的系统。

根据最新的Computing Curricula,我们可以将计算学科的知识体(Body of knowledge)大致分为如下12个部分:

  • 数学基础与计算理论

  • 程序设计语言与算法设计

  • 计算系统

  • 通讯与网络

  • 数据管理与信息系统

  • 信息与网络空间安全

  • 电子器件与硬件工程

  • 软件开发与软件工程

  • 人工智能与智能系统

  • 图形、多媒体与可视化

  • 商务信息技术

  • 交叉与前沿

3、数据科学

《数据科学、数据技术和数据工程》一文中我们指出:数据科学是对大数据世界的本质规律进行探索与认识,是基于计算科学、统计学、信息系统等学科的理论,甚至发展出新的理论,研究数据从产生与感知到分析与利用整个生命周期的本质规律,是一门新兴的学科。

同样,套用上面科学的含义,我们可以得出:数据科学(Data science)是反映数字(数据)世界中各种现象及其客观规律的知识体系。

数据科学以作为支撑大数据研究与应用的交叉学科,其理论基础来自多个不同的学科领域,包括计算机科学、统计学、人工智能、信息系统、情报科学等。数据科学的目的在于系统深入地探索大数据应用中遇到的各类科学问题、技术问题和工程实现问题,包括数据全生命周期管理、数据管理和分析技术和算法、数据系统基础设施建设以及大数据应用实施和推广。因此,多学科交叉融合是数据科学的一个特点。

一直以来,跟数据科学概念相关的概念层出不穷。下图是第一张关于“数据科学”概念的韦恩图,由 Drew Conway在2010年制作。图中的中心部分是数据科学,韦恩图表明它是黑客技术、数学、统计学和其他实质性的专业知识的组合。


进几年来,关于数据科学领域的概念韦恩图非常多,并且越做越好。如果你想查看关于这个方面的详细历史,这里有一篇文章可以关注:Battle of the Data Science Venn Diagrams。但是最近,对这个概念的讨论又有了新的进展。2016年,Gregory Piatetsky-shapiro 制作了一个不同的概念图,其中有两点最引人注目:数据科学不再处于图的中心位置;并且他定义数据科学的方法也有所不同。最新的研究室是利用数据科学与其他学科(如人工智能、机器学习、深度学习、大数据、数据挖掘)的关系来对其进行定义。由此得出的定义是,数据科学是人工智能、机器学习和大数据的交集,并与数据挖掘有着本质性联系,它是数据挖掘的扩展集和后继术语。

这两个图示可能看起来完全不同,但是它们的确有很多相似之处:Piatetsky-shapiro 的图示也运用了 Drew Conway 的韦恩图中的黑客技术、数学、统计学和其他实质性的专业知识。

与传统计算机和软件工程等学科相比,数据科学具备独特的学科基础和内涵。数据科学的理论基础涉及统计分析、商务智能以及数据处理基础,具体包括以下几个方面:

  • 大数据表达理论方面:包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制以及大数据的结构与效能的规律性。

  • 在大数据计算理论方面:研究大数据的表示以及大数据的计算模型及其复杂性。

  • 在大数据应用基础理论方面:研究大数据与知识发现,大数据环境下的实验与验证方法以及大数据的安全与隐私。

相比较而言,计算机科学学科是研究算法的科学,而数据科学不局限于此,其研究对象是数据,随着计算机应用从以计算为中心逐渐向以数据为中心的迁移,数据科学的内涵和外延更加宽泛。而软件工程学科中的相关技术提供了数据分析处理的工具以及具体开发时的范式。数据处理技术是数据研究领域的一种重要的研究方法,用于研究和发现数据本身的现象和规律。

数据科学也不同于传统的商业智能和统计学,商业智能主要从商业模式、经济管理的角度对数据应用进行研究,而统计学提供具体的数据分析处理的方法论,但是面对PB级以上的海量数据,大数据的分析不能停留在获得概率分布结果,也不能满足于对细节问题的数据挖掘,而是需要更简单、有效的问题求解方法,争取从大数据中获得新的知识,构建新的应用范式。

大数据不仅仅是信息技术领域的事情,它的典型特点就是与应用密切结合。在当前阶段,大数据概念的提出和被广泛接受才不过三四年,属于发展初期。大数据的概念已经被社会各个层面广泛认可,开始从线上走到线下,越来越多的人从企业管理、社会治理、科学研究等领域探讨大数据的应用。这种来源于应用的关于大数据技术的爆发式需求,为一门新型的独立学科的形成和发展带来了挑战和机遇。

以上说的都还是比较理想的情况。任何领域的研究,若要成为一门科学,一定是研究共性的问题。针对非常狭窄领域的某个具体问题,主要依靠该问题涉及的特殊条件和专门知识做数据挖掘,不大可能使大数据成为一门科学。数据科学的研究需要在一个领域发现的数据相互关系和规律具有可推广到其他领域的普适性。抽象出一个领域的共性科学问题往往需要较长的时间,提炼“数据界”的共性科学问题还需要一段时间的实践积累。至少未来5至10年内计算机界的学者还需多花精力协助其他领域的学者解决大数据带来的技术挑战问题。通过分层次的不断抽象,大数据的共性科学问题才会逐步清晰明朗。

当你刚迈入科学门槛的时候,计算科学来了;当你还没明白计算科学的时候,数据科学来了。不是我不明白,世界变化太快!

参考文献:

  • 李国杰, 程学旗, 大数据研究:未来科技及经济社会发展的重大战略领域, 中国科学院院刊, 2012.

  • 周傲英, 钱卫宁等, 数据科学与工程:大数据时代的新兴交叉学科, 大数据, 2015.

  • 计算思维

  • David Donoho, 50 years of Data Science,2015.

可以关注公众号~




https://m.sciencenet.cn/blog-242272-1013649.html

上一篇:再谈通识实践与大数据课程
下一篇:科学思维、计算思维与数据思维

5 周健 强涛 黄荣彬 张磊 王满喜

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-2 23:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部